Bellman Gradient Iteration for Inverse Reinforcement Learning.

Kun Li Yanan Sui Joel W. Burdick

Published in: CoRR (2017)

Keyphrases

inverse reinforcement learning
bayesian nonparametric
partially observable environments
preference elicitation
reward function
linear program
objective function