Robust Modified Policy Iteration.

David L. Kaufman Andrew J. Schaefer

Published in: INFORMS J. Comput. (2013)

Keyphrases

policy iteration
markov decision processes
model free
finite state
sample path
fixed point
temporal difference
reinforcement learning
least squares
neural network
optimal control
markov decision process