Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments.

Ryan Lowe Yi Wu Aviv Tamar Jean Harb Pieter Abbeel Igor Mordatch

Published in: NIPS (2017)

Keyphrases

cooperative
multi agent
actor critic
reinforcement learning
multi agent systems
optimal control
policy gradient
temporal difference
approximate dynamic programming
gradient method
single agent
function approximation
dynamic environments
game theory
reinforcement learning algorithms
markov decision processes
policy iteration
average reward
neural network