Task-Completion Dialogue Policy Learning via Monte Carlo Tree Search with Dueling Network.

Sihan Wang Kaijie Zhou Kunfeng Lai Jianping Shen

Published in: EMNLP (1) (2020)

Keyphrases

learning algorithm
monte carlo tree search
reinforcement learning
learning process
search algorithm
learning tasks
active learning
dynamic programming
optimal policy