-Regularized Temporal-Difference Prediction With Gradient Correction.

Luntong Li Dazi Li Tianheng Song Xin Xu

Published in: IEEE Trans. Neural Networks Learn. Syst. (2018)

Keyphrases

temporal difference
td learning
evaluation function
function approximation
reinforcement learning
monte carlo
model free
policy evaluation
temporal difference learning
step size
action selection
policy iteration
reinforcement learning algorithms
function approximators
radial basis function
data sets
learning tasks
linear combination
active learning
actor critic
objective function
temporal difference methods