Deep Reinforcement Learning and the Deadly Triad.

Hado van Hasselt Yotam Doron Florian Strub Matteo Hessel Nicolas Sonnerat Joseph Modayil

Published in: CoRR (2018)

Keyphrases

reinforcement learning
function approximation
state space
reinforcement learning algorithms
temporal difference
dynamic programming
optimal control
direct policy search
robotic control
learning process
control problems
information systems
model free
policy search
lung cancer
robot control
machine learning
information retrieval
perceptual aliasing
relational reinforcement learning
evolutionary learning
learning agent
learning algorithm
reward function
search engine
data sets
markov decision processes
optimal policy
image sequences