Reinforcement Learning from Imperfect Demonstrations.

Yang Gao Huazhe Xu Ji Lin Fisher Yu Sergey Levine Trevor Darrell

Published in: CoRR (2018)

Keyphrases

reinforcement learning
function approximation
reinforcement learning algorithms
state space
markov decision processes
robotic control
learning algorithm
evolutionary learning
model free
optimal policy
machine learning
learning problems
learning process
partially observable
policy search
dynamic programming
temporal difference
real robot
learning agent
reinforcement learning methods
artificial neural networks
direct policy search