Generalized Inverse Reinforcement Learning with Linearly Solvable MDP.

Masahiro Kohjima Tatsushi Matsubayashi Hiroshi Sawada

Published in: ECML/PKDD (2) (2017)

Keyphrases

inverse reinforcement learning
bayesian nonparametric
reward function
partially observable environments
preference elicitation
special case
np complete
temporal difference
reinforcement learning
optimal policy
markov decision processes
state space
markov decision process
np hard
multi criteria