Meta-Gradient Reinforcement Learning.

Zhongwen Xu Hado van Hasselt David Silver

Published in: CoRR (2018)

Keyphrases

reinforcement learning
policy gradient
function approximation
optimal policy
model free
reinforcement learning algorithms
learning algorithm
gradient information
state space
machine learning
gradient method
temporal difference
optimal control
markov decision processes
edge detection
learning process
multi agent
dynamic programming
gradient direction
policy search
learning classifier systems
action selection
domain knowledge
image gradient
multi agent systems
gradient field
data sets
robotic control
search results clustering