Decentralized Optimistic Hyperpolicy Mirror Descent: Provably No-Regret Learning in Markov Games.

Wenhao Zhan Jason D. Lee Zhuoran Yang

Published in: ICLR (2023)

Keyphrases

online learning
learning process
learning algorithm
reinforcement learning
multiagent reinforcement learning
learning tasks
cooperative
supervised learning
markov decision processes
markov games
lower bound
hidden variables