V-MPO: On-Policy Maximum a Posteriori Policy Optimization for Discrete and Continuous Control.

H. Francis Song Abbas Abdolmaleki Jost Tobias Springenberg Aidan Clark Hubert Soyer Jack W. Rae Seb Noury Arun Ahuja Siqi Liu Dhruva Tirumala Nicolas Heess Dan Belov Martin A. Riedmiller Matthew M. Botvinick

Published in: CoRR (2019)