Preferential Temporal Difference Learning.

Nishanth Anand Doina Precup

Published in: CoRR (2021)

Keyphrases

temporal difference learning
function approximation
fixed point
reinforcement learning
evaluation function
game playing
approximate value iteration
temporal difference
reinforcement learning algorithms
markov decision process
monte carlo
machine learning
multi agent
state space