Inverse Reinforcement Learning with Explicit Policy Estimates.

Navyata Sanghvi Shinnosuke Usami Mohit Sharma Joachim Groeger Kris Kitani

Published in: CoRR (2021)

Keyphrases

inverse reinforcement learning
partially observable environments
bayesian nonparametric
preference elicitation
reward function
temporal difference
learning algorithm
artificial intelligence
probabilistic model
fuzzy logic
function approximation