Fixed Points of Approximate Value Iteration and Temporal-Difference Learning.

Daniela Pucci de Farias Benjamin Van Roy

Published in: ICML (2000)

Keyphrases

approximate value iteration
temporal difference learning
fixed point
function approximation
reinforcement learning
game playing
temporal difference
evaluation function
loss bounds
reinforcement learning algorithms
markov decision process
monte carlo
policy iteration
sufficient conditions
dynamical systems