Cooperative Multi-agent Policy Gradient.

Guillaume Bono Jilles Steeve Dibangoye Laëtitia Matignon Florian Pereyron Olivier Simonin

Published in: ECML/PKDD (1) (2018)

Keyphrases

cooperative multi agent
policy gradient
reinforcement learning
actor critic
function approximation
parametric optimization
reinforcement learning algorithms
gradient method
logic programming
optimal control
model free reinforcement learning
approximation methods
reinforcement learning methods
state space
markov decision processes
average reward
single agent
state action
optimal policy
learning algorithm
temporal difference
natural language
control system