An actor-critic method using Least Squares Temporal Difference learning.

Ioannis Ch. Paschalidis Keyong Li Reza Moazzez Estanjini

Published in: CDC (2009)

Keyphrases

dynamic programming
machine learning
reinforcement learning
least squares
sufficient conditions
support vector machine svm