Demonstration actor critic.

Guoqing Liu Li Zhao Pushi Zhang Jiang Bian Tao Qin Nenghai Yu Tie-Yan Liu

Published in: Neurocomputing (2021)

Keyphrases

actor critic
reinforcement learning
policy gradient
optimal control
temporal difference
neuro fuzzy
approximate dynamic programming
gradient method
reinforcement learning algorithms
function approximation
policy iteration
average reward
convergence rate
markov decision processes
neural network
evaluation function
monte carlo
least squares
multi agent
machine learning