Multi-modal co-attention relation networks for visual question answering.

Zihan Guo Dezhi Han

Published in: Vis. Comput. (2023)

Keyphrases

multi modal
question answering
cross modal
video search
question classification
information extraction
qa clef
natural language

audio visual
information retrieval
passage retrieval
cross language
single modality
natural language questions
multi modality
named entities

high dimensional
visual information
candidate answers
syntactic information
semantic roles
semantic concepts
natural language processing
multiple modalities

low level
question answering systems
visual features
image annotation
answer validation
image retrieval
video sequences
search engine