Linear Programming and Zero-Sum Two-Person Undiscounted Semi-Markov Games.

Prasenjit Mondal

Published in: Asia Pac. J. Oper. Res. (2015)

Keyphrases

search space
markov games
linear programming
markov decision processes
markov decision problems
state space
stochastic games
multiagent reinforcement learning
dynamic programming
optimal solution
markov decision process
policy iteration
reinforcement learning algorithms
linear program
optimal policy
infinite horizon
average reward
finite state
mathematical programming
average cost
reinforcement learning
objective function
control problems
machine learning
np hard
partially observable
decision problems
markov chain
optimal stopping