Misspecification in Inverse Reinforcement Learning.

Joar Skalse Alessandro Abate

Published in: CoRR (2022)

Keyphrases

inverse reinforcement learning
bayesian nonparametric
preference elicitation
partially observable environments
reward function
temporal difference
bayesian networks
special case
hidden markov models
dynamic programming