Nonlinear Distributional Gradient Temporal-Difference Learning.

Chao Qu Shie Mannor Huan Xu

Published in: CoRR (2018)

Keyphrases

temporal difference learning
function approximation
fixed point
evaluation function
approximate value iteration
game playing
temporal difference
reinforcement learning
markov decision process
reinforcement learning algorithms
monte carlo
neural network
regression model
dynamical systems