Reward Identification in Inverse Reinforcement Learning.

Kuno Kim Shivam Garg Kirankumar Shiragur Stefano Ermon

Published in: ICML (2021)

Keyphrases

inverse reinforcement learning
partially observable environments
bayesian nonparametric
reward function
preference elicitation
reinforcement learning
decision problems
desirable properties
temporal difference