Decentralized Model-Free Reinforcement Learning in Stochastic Games with Average-Reward Objective.

Romain Cravic Nicolas Gast Bruno Gaujal

Published in: AAMAS (2023)

Keyphrases

stochastic games
average reward
policy gradient
markov decision processes
optimal policy
long run
reinforcement learning
multi agent
model free
state action
nash equilibria
policy iteration
repeated games
infinite horizon
cooperative
reinforcement learning algorithms
machine learning
markov chain
learning automata
state space
knowledge base