Multimodal Hierarchical Reinforcement Learning Policy for Task-Oriented Visual Dialog.

Jiaping Zhang Tiancheng Zhao Zhou Yu

Published in: SIGDIAL Conference (2018)

Keyphrases

hierarchical reinforcement learning
reward function
reinforcement learning
markov decision process
average reward
optimal policy
multi agent
dialogue system
neural network
natural language
markov decision processes
finite number
model free
partially observable