Deep reward shaping from demonstrations.

Ahmed Hussein Eyad Elyan Mohamed Medhat Gaber Chrisina Jayne

Published in: IJCNN (2017)

Keyphrases

reward shaping
reinforcement learning
complex domains
reinforcement learning algorithms
markov decision problems
optimal policy
complex environments
domain knowledge
dynamic programming
markov decision processes
model free
temporal difference