Bayesian Policy Gradient and Actor-Critic Algorithms.

Mohammad Ghavamzadeh Yaakov Engel Michal Valko

Published in: J. Mach. Learn. Res. (2016)

Keyphrases

policy gradient
actor critic
policy gradient methods
reinforcement learning
computational complexity
optimization problems
learning algorithm
convergence rate
function approximation
partially observable markov decision processes
policy iteration
gradient method
variance reduction