CMGN: Cross-Modal Grounding Network for Temporal Sentence Retrieval in Video.

Qun Zhang Bin Jiang Bolin Zhang Chao Yang

Published in: ChineseCSCW (2) (2023)

Keyphrases

cross modal
sentence retrieval
space time
multi modal
visual data
video sequences
video data
multimedia
video content
visual recognition
information retrieval
high dimensional
image retrieval
text classification
question answering
key frames