Gaussian Kernel-based Cross Modal Network for Spatio-Temporal Video Grounding.

Zeyu Xiong Daizong Liu Pan Zhou

Published in: CoRR (2022)

Keyphrases

cross modal
spatio temporal
multi modal
video data
visual data
space time
video sequences
image sequences
multimedia retrieval
video streams
multimedia data
video content
human actions
multimedia
moving objects
video analysis
image retrieval
semantic concepts
visual recognition
visual similarity