Neural Temporal-Difference Learning Converges to Global Optima.

Qi Cai Zhuoran Yang Jason D. Lee Zhaoran Wang

Published in: NeurIPS (2019)

Keyphrases

temporal difference learning
global optima
global optimization
fixed point
function approximation
optimization problems
optimization algorithm
global optimum
reinforcement learning
evaluation function
game playing
temporal difference
global search
neural network
reinforcement learning algorithms
premature convergence
optimal solution
function optimization
monte carlo
evolutionary algorithm
estimation of distribution algorithms
machine learning
markov decision process
particle swarm
particle swarm optimization
genetic programming