SMAUG: Sparse Masked Autoencoder for Efficient Video-Language Pre-training.

Yuanze Lin Chen Wei Huiyu Wang Alan L. Yuille Cihang Xie

Published in: ICCV (2023)

Keyphrases

video sequences
real time
multimedia
video data
training algorithm
video frames
natural language
high dimensional
online learning
computer vision
training data
sparse representation
multimedia data
language learning
sparse data
restricted boltzmann machine