A policy-improvement type algorithm for solving zero-sum two-person stochastic games of perfect information.

T. E. S. Raghavan Zamir Syed

Published in: Math. Program. (2003)

Keyphrases

stochastic games
objective function
computational complexity
worst case
combinatorial optimization
learning algorithm
search space
dynamic programming
optimal solution
convergence rate
nash equilibria
average reward
imperfect information
subgame perfect equilibrium