Divergence-Regularized Multi-Agent Actor-Critic.

Kefan Su Zongqing Lu

Published in: CoRR (2021)

Keyphrases

actor critic
reinforcement learning
multi agent
policy gradient
optimal control
temporal difference
single agent
approximate dynamic programming
gradient method
neuro fuzzy
reinforcement learning algorithms
function approximation
policy iteration
cooperative
average reward
markov decision processes
least squares
partially observable markov decision processes
multi agent systems
state space
multiple agents
optimal policy
model free
evaluation function
dynamic environments
learning algorithm
markov decision process
learning problems
reinforcement learning methods
supervised learning