Lifelong Inverse Reinforcement Learning.

Jorge A. Mendez Shashank Shivkumar Eric Eaton

Published in: CoRR (2022)

Keyphrases

inverse reinforcement learning
bayesian nonparametric
partially observable environments
preference elicitation
reward function
temporal difference
state space
learning algorithm
utility function