Cautious Actor-Critic.

Lingwei Zhu Toshinori Kitamura Takamitsu Matsubara

Published in: ACML (2021)

Keyphrases

actor critic
reinforcement learning
optimal control
policy gradient
neuro fuzzy
approximate dynamic programming
gradient method
temporal difference
reinforcement learning algorithms
function approximation
policy iteration
dynamic programming
markov decision processes
state space
machine learning
monte carlo
linear programming
learning algorithm