Learning Unified Video-Language Representations via Joint Modeling and Contrastive Learning for Natural Language Video Localization.

Published in: IJCNN (2023)

Keyphrases