Unsupervised Vision-and-Language Pretraining via Retrieval-based Multi-Granular Alignment.

Published in: CVPR (2022)

Keyphrases