Least Squares Policy Evaluation Algorithms with Linear Function Approximation.

Angelia Nedic Dimitri P. Bertsekas

Published in: Discret. Event Dyn. Syst. (2003)

Keyphrases

policy evaluation
least squares
function approximation
temporal difference
model free
reinforcement learning
td learning
policy iteration
monte carlo
temporal difference learning algorithms
semi parametric
function approximators
linear model
markov decision processes
optical flow
partially observable markov decision processes
dynamic programming
evaluation function
variance reduction
neural network
learning tasks
radial basis function
optimal policy