Misspecification in Inverse Reinforcement Learning.

Joar Skalse Alessandro Abate

Published in: AAAI (2023)

Keyphrases

inverse reinforcement learning
bayesian nonparametric
preference elicitation
partially observable environments
reward function
temporal difference
machine learning
monte carlo
multi criteria