Is Vanilla Policy Gradient Overlooked? Analyzing Deep Reinforcement Learning for Hanabi.

Bram Grooten Jelle Wemmenhove Maurice Poot Jim Portegies

Published in: CoRR (2022)

Keyphrases

policy gradient
reinforcement learning
actor critic
function approximation
policy search
reinforcement learning algorithms
model free reinforcement learning
policy gradient methods
gradient method
optimal control
markov decision processes
average reward
temporal difference
model free
partially observable markov decision processes
function approximators
state action
reinforcement learning methods
optimal policy
state space
dynamic programming
machine learning
learning algorithm