Multi-Step Dyna Planning for Policy Evaluation and Control.

Hengshuai Yao Richard S. Sutton Shalabh Bhatnagar Diao Dongcui Csaba Szepesvári

Published in: NIPS (2009)

Keyphrases

multi step
td learning
policy evaluation
temporal difference
function approximation
action selection
least squares
knn
neural network
planning problems
policy iteration
decision trees
k nearest neighbor
monte carlo
model free