Generalized Off-Policy Actor-Critic.

Shangtong Zhang Wendelin Boehmer Shimon Whiteson

Published in: NeurIPS (2019)

Keyphrases

actor critic
reinforcement learning
optimal control
gradient method
policy gradient
approximate dynamic programming
neuro fuzzy
temporal difference
neural network
machine learning
principal component analysis