Multi-stage Multi-modal Pre-training for Video Representation.

Chunquan Chen Lujia Bao Weikang Li Xiaoshuai Chen Xinghai Sun Chao Qi

Published in: NLPCC (2) (2021)

Keyphrases

multi modal
multistage
video representation
spatio temporal
multi modality
dynamic programming

space time
high dimensional
video streams
video analysis
audio visual
video database

video content
image annotation
generative model
motion patterns
semantic concepts
spatial information

optimal policy
key frames
multimedia databases
video processing
visual vocabulary
machine learning