TD-DeltaPi: A Model-Free Algorithm for Efficient Exploration.

Bruno Castro da Silva Andrew G. Barto

Published in: AAAI (2012)

Keyphrases

model free
learning algorithm
reinforcement learning
k means
temporal difference
reinforcement learning algorithms
search space
optimal solution
support vector machine
text mining
support vector machine svm