Approximate Modified Policy Iteration

Bruno Scherrer Victor Gabillon Mohammad Ghavamzadeh Matthieu Geist

Published in: CoRR (2012)

Keyphrases

policy iteration
policy evaluation
markov decision processes
factored mdps
approximate policy iteration
least squares
reinforcement learning
model free
optimal policy
sample path
fixed point
markov decision process
temporal difference
finite state
infinite horizon
approximate value iteration
markov decision problems
average reward
hybrid algorithms
linear programming
convergence rate
monte carlo
variance reduction
optimal control
discounted reward
state space