Self-Supervised Online Reward Shaping in Sparse-Reward Environments.

Farzan Memarian Wonjoon Goo Rudolf Lioutikov Scott Niekum Ufuk Topcu

Published in: IROS (2021)

Keyphrases

reward shaping
reinforcement learning
online learning
complex domains
complex environments
reward function
reinforcement learning algorithms
state space
markov decision problems
expert systems
np hard
dynamic environments