Beyond the Policy Gradient Theorem for Efficient Policy Updates in Actor-Critic Algorithms.

Romain Laroche Remi Tachet

Published in: CoRR (2022)

Keyphrases

policy gradient
actor critic
policy gradient methods
reinforcement learning
policy iteration
partially observable markov decision processes
function approximation
approximation methods
optimal control
approximate dynamic programming
learning algorithm
reinforcement learning algorithms
gradient method
reinforcement learning methods
temporal difference
natural actor critic
function approximators
neuro fuzzy
average reward
markov decision processes
state space