COPA : Efficient Vision-Language Pre-training through Collaborative Object- and Patch-Text Alignment.

Published in: ACM Multimedia (2023)

Keyphrases