Greedification Operators for Policy Optimization: Investigating Forward and Reverse KL Divergences.

Published in: J. Mach. Learn. Res. (2022)

Keyphrases