Multimodal Incremental Transformer with Visual Grounding for Visual Dialogue Generation.

Feilong Chen Fandong Meng Xiuyi Chen Peng Li Jie Zhou

Published in: CoRR (2021)

Keyphrases

visual information
high level
data sets
visual features
visual data
search engine
information systems
real time
artificial intelligence
multi agent
natural language
fuzzy logic
cross modal