Gradient compensation traces based temporal difference learning.

Bi Wang Xuelian Li Zhiqiang Gao Chen Yang

Published in: Neurocomputing (2021)

Keyphrases

temporal difference learning
function approximation
fixed point
game playing
reinforcement learning
evaluation function
temporal difference
approximate value iteration
reinforcement learning algorithms
markov decision process
machine learning
bayesian networks
semi supervised
monte carlo
gaussian process
model free