Guided Dialog Policy Learning: Reward Estimation for Multi-Domain Task-Oriented Dialog.

Ryuichi Takanobu Hanlin Zhu Minlie Huang

Published in: EMNLP/IJCNLP (1) (2019)

Keyphrases

multi domain
reinforcement learning
learning algorithm
spoken dialog
natural language
learning process
learning tasks
inverse reinforcement learning
partially observable environments
active learning
nearest neighbor
prior knowledge
supervised learning