Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using Transformer Encoders.

Published in: CoRR (2020)

Keyphrases