Dialogue Generation: From Imitation Learning to Inverse Reinforcement Learning.

Ziming Li Julia Kiseleva Maarten de Rijke

Published in: CoRR (2018)

Keyphrases

imitation learning
inverse reinforcement learning
preference elicitation
reinforcement learning
humanoid robot
robotic systems
maximum margin
reward function
decision making
active learning
dynamic programming
markov chain
utility function
conditional probabilities