Approximate Temporal Difference Learning is a Gradient Descent for Reversible Policies.

Published in: CoRR (2018)

Keyphrases

temporal difference learning
approximate value iteration
markov decision process
function approximation
fixed point
reinforcement learning
game playing
evaluation function
temporal difference
optimal policy
markov chain
state space
markov decision processes
cost function
reinforcement learning algorithms
infinite horizon
reward function
objective function
monte carlo
function approximators