Per-decision Multi-step Temporal Difference Learning with Control Variates.

Kristopher De Asis Richard S. Sutton

Published in: UAI (2018)

Keyphrases

multi step
temporal difference learning
function approximation
fixed point
reinforcement learning
evaluation function
temporal difference
decision making
knn
k nearest neighbor
control strategy
game playing
reinforcement learning algorithms
markov decision process
machine learning
learning algorithm