Sustainable ℓ2-regularized actor-critic based on recursive least-squares temporal difference learning.

Luntong Li Dazi Li Tianheng Song

Published in: SMC (2017)

Keyphrases

actor critic
reinforcement learning
policy gradient
optimal control
temporal difference
approximate dynamic programming
neuro fuzzy
gradient method
policy iteration
reinforcement learning algorithms
function approximation
least squares
multi agent
objective function
average reward
recursive least squares
variance reduction
machine learning
temporal difference learning
neural network
markov decision processes
monte carlo
dynamic programming