Phasic Policy Gradient.

Karl Cobbe Jacob Hilton Oleg Klimov John Schulman

Published in: ICML (2021)

Keyphrases

policy gradient
actor critic
gradient method
reinforcement learning
function approximation
optimal control
parametric optimization
model free reinforcement learning
reinforcement learning algorithms
approximation methods
variance reduction
partially observable markov decision processes
machine learning
state space
monte carlo
single agent