An Exact Dynamic Programming Solution for a Decentralized Two-Player Markov Decision Process.

Jeff Wu Sanjay Lall

Published in: AAAI Spring Symposium: Embedded Reasoning (2010)

Keyphrases

markov decision process
dynamic programming
state space
optimal policy
markov decision processes
reinforcement learning
infinite horizon
exact solution
multi agent
dec pomdps
finite horizon
policy iteration
reinforcement learning algorithms
reward function
evaluation function
single agent
mathematical model
search algorithm
cooperative
optimal solution