Taylor TD-learning.

Michele Garibbo Maxime Robeyns Laurence Aitchison

Published in: CoRR (2023)

Keyphrases

td learning
temporal difference
evaluation function
function approximation
reinforcement learning
multi step
policy evaluation
reinforcement learning algorithms
model free
neural network
monte carlo
step size