CHAN: Cross-Modal Hybrid Attention Network for Temporal Language Grounding in Videos.

Wen Wang Ling Zhong Guang Gao Minhong Wan Jason Gu

Published in: ICME (2023)

Keyphrases

cross modal
multi modal
spatio temporal
multimedia retrieval
visual data
visual recognition
video data
perceptual information
similarity measure
video sequences
test collection
video frames