Can Temporal-Difference and Q-Learning Learn Representation? A Mean-Field Theory.

Yufeng Zhang Qi Cai Zhuoran Yang Yongxin Chen Zhaoran Wang

Published in: CoRR (2020)

Keyphrases

temporal difference
function approximation
td learning
reinforcement learning
function approximators
temporal difference learning
reinforcement learning algorithms
action selection
model free
evaluation function
temporal difference methods
monte carlo
policy iteration
step size
learning tasks
td methods
multi agent
actor critic
learning algorithm
supervised learning
multiscale
policy evaluation
neural network
data mining
decision making
support vector machine
fixed point
radial basis function