Multimodal Hierarchical Reinforcement Learning Policy for Task-Oriented Visual Dialog.

Jiaping Zhang Tiancheng Zhao Zhou Yu

Published in: CoRR (2018)

Keyphrases

hierarchical reinforcement learning
reinforcement learning
average reward
markov decision process
optimal policy
reward function
state abstraction
state space
neural network
model free
action selection
genetic algorithm ga
policy iteration
sufficient conditions
higher order
learning algorithm
machine learning