Fine-Grained Visual Textual Alignment for Cross-Modal Retrieval Using Transformer Encoders.

Published in: ACM Trans. Multim. Comput. Commun. Appl. (2021)

Keyphrases