An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling.

Published in: CVPR (2023)

Keyphrases