Modeling Motion with Multi-Modal Features for Text-Based Video Segmentation.

Wangbo Zhao Kai Wang Xiangxiang Chu Fuzhao Xue Xinchao Wang Yang You

Published in: CVPR (2022)

Keyphrases

multi modal
video segmentation
motion cues
humanoid robot
video sequences
multi modality
semantic concepts
high dimensional
low level
image features
audio visual
feature vectors
video analysis
video frames
shot boundary detection
cross modal
computer vision
feature space
multimedia
multiple modalities
uni modal
motion features
image annotation
video streams
segmentation method
semantic information
mutual information