Meta-Gradient Reinforcement Learning.

Zhongwen Xu Hado van Hasselt David Silver

Published in: NeurIPS (2018)

Keyphrases

reinforcement learning
policy gradient
function approximation
reinforcement learning algorithms
state space
model free
temporal difference
robotic control
dynamic programming
meta level
optimal policy
edge detection
optimal control
image gradient
markov decision processes
transfer learning
data sets
gradient orientation
gradient information
temporal difference learning
database
evaluation function
supervised learning
multi agent
case study
data mining
real time