Credit Assignment with Meta-Policy Gradient for Multi-Agent Reinforcement Learning.

Jianzhun Shao Hongchang Zhang Yuhang Jiang Shuncheng He Xiangyang Ji

Published in: CoRR (2021)

Keyphrases

multi agent reinforcement learning
credit assignment
policy gradient
reinforcement learning
multi agent
function approximation
stochastic games
multi agent learning
single agent
gradient method
average reward
reinforcement learning algorithms
optimal control
cooperative
state space
multi agent systems
function approximators
model free
learning algorithm
optimal policy
partially observable markov decision processes
machine learning
genetic algorithm
supervised learning
learning capabilities
temporal difference
markov decision processes
learning problems
text classification
data mining