ViLMA: A Zero-Shot Benchmark for Linguistic and Temporal Grounding in Video-Language Models.

Ilker Kesen Andrea Pedrotti Mustafa Dogan Michele Cafagna Emre Can Acikgoz Letitia Parcalabescu Iacer Calixto Anette Frank Albert Gatt Aykut Erdem Erkut Erdem

Published in: ICLR (2024)