Hierarchical cross-modal contextual attention network for visual grounding.

Xin Xu Gang Lv Yining Sun Yuxia Hu Fudong Nian

Published in: Multim. Syst. (2023)

Keyphrases

cross modal
multi modal
visual data
image retrieval
visual recognition
visual similarity
multimedia retrieval
perceptual information
contextual information
multimedia databases
multimedia
image database
visual features
multimedia data
semantic concepts