ε-ViLM : Efficient Video-Language Model via Masked Video Modeling with Semantic Vector-Quantized Tokenizer.

Published in: WACV (Workshops) (2024)

Keyphrases