VLDeformer: Learning Visual-Semantic Embeddings by Vision-Language Transformer Decomposing.

Published in: CoRR (2021)

Keyphrases