Regularized Policy Iteration.

Amir Massoud Farahmand Mohammad Ghavamzadeh Csaba Szepesvári Shie Mannor

Published in: NIPS (2008)

Keyphrases

policy iteration
least squares
markov decision processes
model free
sample path
fixed point
reinforcement learning
optimal policy
average reward
policy evaluation
finite state
infinite horizon
markov decision problems
markov decision process
optimal control
linear programming
convergence rate
temporal difference
dynamic programming
state space
long run
neural network
average cost
multistage
multi agent
image sequences