Temporal Pyramid Transformer with Multimodal Interaction for Video Question Answering.

Min Peng Chongyang Wang Yuan Gao Yu Shi Xiang-Dong Zhou

Published in: CoRR (2021)

Keyphrases

question answering
multimodal interaction
question classification
video sequences
information extraction
information retrieval
natural language
video data
multimedia
video content
question answering systems
named entities
natural language processing
natural language questions
qa clef
text to speech
cross language
video retrieval
answering questions
answer validation
sentence retrieval
open domain question answering
passage retrieval
syntactic information
video frames
candidate answers
semantic roles
computer vision