Cautious Actor-Critic.

Lingwei Zhu Toshinori Kitamura Takamitsu Matsubara

Published in: CoRR (2021)

Keyphrases

actor critic
reinforcement learning
optimal control
approximate dynamic programming
policy gradient
temporal difference
neuro fuzzy
gradient method
reinforcement learning algorithms
policy iteration
function approximation
average reward
state space
markov decision processes
optimal policy
temporal difference learning
least squares
optimization methods
control strategy
linear program
monte carlo
dynamic programming