Online Inverse Reinforcement Learning Under Occlusion.

Saurabh Arora Prashant Doshi Bikramjit Banerjee

Published in: AAMAS (2019)

Keyphrases

inverse reinforcement learning
bayesian nonparametric
partially observable environments
reward function
preference elicitation
artificial intelligence
decision makers
resource allocation
temporal difference