Computational Complexity of Asynchronous Policy Iteration for Two-Player Zero-Sum Markov Games.

Chenyu Xu Sihai Zhang Zhengdao Wang

Published in: ICASSP (2024)

Keyphrases

markov games
policy iteration
markov decision processes
computational complexity
markov decision process
reinforcement learning
reinforcement learning algorithms
approximate policy iteration
optimal policy
state space
finite state
average reward
dynamic programming
decision problems
multiagent reinforcement learning
temporal difference learning
finite horizon
model free
infinite horizon
markov decision problems
temporal difference
partially observable
average cost
machine learning
initial state
np hard
cooperative
transition probabilities