Distributed off-Policy Actor-Critic Reinforcement Learning with Policy Consensus.

Yan Zhang Michael M. Zavlanos

Published in: CDC (2019)

Keyphrases

actor critic
reinforcement learning
policy gradient
temporal difference
optimal control
approximate dynamic programming
reinforcement learning algorithms
neuro fuzzy
policy iteration
gradient method
multi agent
function approximation
policy gradient methods
optimal policy
average reward
markov decision processes
model free
rl algorithms
dynamic programming
learning problems
evaluation function
learning algorithm
markov decision process
markov decision problems
action selection
control problems
reinforcement learning problems
natural actor critic
state space