Unifying Cross-Lingual and Cross-Modal Modeling Towards Weakly Supervised Multilingual Vision-Language Pre-training.

Published in: ACL (1) (2023)

Keyphrases