Representation Policy Iteration.

Sridhar Mahadevan

Published in: UAI (2005)

Keyphrases

policy iteration
markov decision processes
reinforcement learning
fixed point
finite state
policy evaluation
machine learning
decision making
random walk
convergence speed
temporal difference