Cross-Modal Generative Augmentation for Visual Question Answering.

Zixu Wang Yishu Miao Lucia Specia

Published in: CoRR (2021)

Keyphrases

question answering
cross modal
multi modal
information retrieval
natural language
named entities
natural language processing
information extraction
multimedia retrieval
image retrieval
visual data
visual recognition
generative model
visual similarity
video data
visual features
high dimensional