An Adiabatic Theorem for Policy Tracking with TD-learning.

Published in: CoRR (2020)

Keyphrases

td learning
temporal difference
policy evaluation
evaluation function
particle filter
action selection
optimal policy
state space
least squares
reinforcement learning
function approximation
multi step
multiresolution
average reward
cost function
policy iteration
search space
artificial neural networks