Regularized Policy Iteration with Nonparametric Function Spaces.

Amir-massoud Farahmand Mohammad Ghavamzadeh Csaba Szepesvári Shie Mannor

Published in: J. Mach. Learn. Res. (2016)

Keyphrases

policy iteration
bellman residual
least squares
sample path
markov decision processes
linear approximation
fixed point
reinforcement learning
model free
optimal policy
infinite horizon
asymptotic analysis
markov decision process
dynamic programming
control system
optimal control
finite state
markov chain
bayesian networks
temporal difference
linear program
state space
linear programming
sufficient conditions