AGREE: Aligning Cross-Modal Entities for Image-Text Retrieval Upon Vision-Language Pre-trained Models.

Published in: WSDM (2023)

Keyphrases