VideoCon: Robust Video-Language Alignment via Contrast Captions.

Hritik Bansal Yonatan Bitton Idan Szpektor Kai-Wei Chang Aditya Grover

Published in: CoRR (2023)

Keyphrases

video content
language learning
video streams
foreground background segmentation
video sequences
multimedia
video data
video frames
natural language
multimedia data
programming language
face recognition
computer vision
video processing
partial occlusion
event detection
temporal information
spatial and temporal
high level
video retrieval
video images
news video
word level
image classification