Settling the Variance of Multi-Agent Policy Gradients.

Jakub Grudzien Kuba Muning Wen Linghui Meng Shangding Gu Haifeng Zhang David Mguni Jun Wang Yaodong Yang

Published in: NeurIPS (2021)

Keyphrases

multi agent
optimal policy
multi agent systems
cooperative
single agent
intelligent agents
multiple agents
reinforcement learning
partially observable markov decision processes
autonomous agents
infinite horizon
machine learning
policy makers
variance reduction
multi agent coordination
software agents
normal distribution
intra class
trade off
asymptotically optimal
gradient information
minimum variance
cooperative agents
team formation
multi agent based simulation