Mean Actor Critic.

Kavosh Asadi Cameron Allen Melrose Roderick Abdel-rahman Mohamed George Dimitri Konidaris Michael L. Littman

Published in: CoRR (2017)

Keyphrases

actor critic
reinforcement learning
approximate dynamic programming
optimal control
policy gradient
temporal difference
neuro fuzzy
gradient method
reinforcement learning algorithms
policy iteration
function approximation
model free
average reward
step size
linear program
dynamical systems
markov decision processes
artificial neural networks