Balancing Value Underestimation and Overestimationwith Realistic Actor-Critic.

Sicen Li Gang Wang Qinyun Tang Liquan Wang

Published in: CoRR (2021)

Keyphrases

actor critic
reinforcement learning
policy gradient
temporal difference
approximate dynamic programming
optimal control
neuro fuzzy
gradient method
reinforcement learning algorithms
function approximation
policy iteration
average reward
model free
reinforcement learning methods
neural network
evaluation function
markov chain
fuzzy logic
learning algorithm