Distributed off-Policy Actor-Critic Reinforcement Learning with Policy Consensus.

Yan Zhang Michael M. Zavlanos

Published in: CoRR (2019)

Keyphrases

actor critic
reinforcement learning
policy gradient
temporal difference
approximate dynamic programming
optimal control
reinforcement learning algorithms
gradient method
neuro fuzzy
policy iteration
multi agent
function approximation
policy gradient methods
state space
markov decision processes
model free
optimal policy
control problems
rl algorithms
learning algorithm
average reward
linear program
machine learning
convergence rate
supervised learning
temporal difference learning
dynamic programming