Improving Anytime Prediction with Parallel Cascaded Networks and a Temporal-Difference Loss.

Michael L. Iuzzolino Michael C. Mozer Samy Bengio

Published in: NeurIPS (2021)

Keyphrases

temporal difference
reinforcement learning
function approximation
td learning
evaluation function
monte carlo
step size
model free
action selection
temporal difference learning
reinforcement learning algorithms
policy evaluation
temporal difference methods
genetic algorithm
objective function
learning tasks
text categorization
multi objective
policy iteration