Distributed asynchronous policy iteration in dynamic programming.

Dimitri P. Bertsekas Huizhen Yu

Published in: Allerton (2010)

Keyphrases

policy iteration
dynamic programming
markov decision processes
optimal policy
infinite horizon
markov decision problems
reinforcement learning
model free
approximate dynamic programming
state space
linear programming
markov decision process
fixed point
optimal control
sample path
average reward
finite state
least squares
multi agent
temporal difference
multistage
partially observable
policy evaluation
average cost
linear program
pairwise