Option compatible reward inverse reinforcement learning.

Rakhoon Hwang Hanjin Lee Hyung Ju Hwang

Published in: Pattern Recognit. Lett. (2022)

Keyphrases

inverse reinforcement learning
partially observable environments
bayesian nonparametric
reward function
preference elicitation
temporal difference
reinforcement learning
multi objective
learning algorithm
state space
utility function