A dynamic programming algorithm for decentralized Markov decision processes with a broadcast structure.

Jeff Wu Sanjay Lall

Published in: CDC (2010)

Keyphrases

markov decision processes
reinforcement learning
optimal policy
finite state
state space
decentralized control
dynamic programming
policy iteration
transition matrices
decision theoretic planning
partially observable
average cost
action sets
average reward
multi agent
planning under uncertainty
reachability analysis
factored mdps
infinite horizon
decision processes
model based reinforcement learning
finite horizon
decision making
state and action spaces
reward function
multiple agents