Towards Principled, Practical Policy Gradient for Bandits and Tabular MDPs.

Michael Lu Matin Aghaei Anant Raj Sharan Vaswani

Published in: CoRR (2024)

Keyphrases

policy gradient
reinforcement learning
markov decision processes
policy search
average reward
reinforcement learning algorithms
function approximation
state space
actor critic
partially observable markov decision processes
model free reinforcement learning
machine learning
multi agent
optimal policy
gradient method
markov decision problems