Offline Inverse Reinforcement Learning.

Firas Jarboui Vianney Perchet

Published in: CoRR (2021)

Keyphrases

inverse reinforcement learning
bayesian nonparametric
partially observable environments
preference elicitation
reward function
search algorithm
mixture model
utility function
temporal difference