On the Complexity of Policy Iteration

Yishay Mansour Satinder P. Singh

Published in: CoRR (2013)

Keyphrases

policy iteration
markov decision processes
reinforcement learning
model free
least squares
optimal policy
infinite horizon
markov decision process
computational complexity
average reward
optimal control
temporal difference
policy evaluation
sample path
function approximation
decision problems
linear programming
discounted reward