Classification-based Policy Iteration with a Critic.

Victor Gabillon Alessandro Lazaric Mohammad Ghavamzadeh Bruno Scherrer

Published in: ICML (2011)

Keyphrases

policy iteration
machine learning
markov decision processes
support vector
support vector machine
temporal difference
reinforcement learning
feature vectors
optimal policy
actor critic
decision trees
dynamic programming
multistage