LS-IQ: Implicit Reward Regularization for Inverse Reinforcement Learning.

Firas Al-Hafez Davide Tateo Oleg Arenz Guoping Zhao Jan Peters

Published in: CoRR (2023)

Keyphrases

inverse reinforcement learning
partially observable environments
bayesian nonparametric
reward function
preference elicitation
reinforcement learning
generative model
markov decision processes
state space
markov decision process