PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient Learning.

Alekh Agarwal Mikael Henaff Sham M. Kakade Wen Sun

Published in: NeurIPS (2020)

Keyphrases

policy gradient
learning process
actor critic
model free reinforcement learning
reinforcement learning
policy gradient methods
learning algorithm
function approximation
policy search
optimal control