An Alternate Policy Gradient Estimator for Softmax Policies.

Shivam Garg Samuele Tosatto Yangchen Pan Martha White Rupam Mahmood

Published in: AISTATS (2022)

Keyphrases

policy gradient
policy gradient methods
policy search
variance reduction
partially observable markov decision processes
reinforcement learning
actor critic
function approximation
optimal control
natural actor critic
gradient method
least squares
temporal difference learning
model free reinforcement learning
optimal policy
approximation methods
average reward
monte carlo
maximum likelihood
reinforcement learning algorithms
importance sampling
dynamical systems
reinforcement learning methods
finite state
naive bayes classifier