Transformer-Exclusive Cross-Modal Representation for Vision and Language.

Andrew Shin Takuya Narihira

Published in: ACL/IJCNLP (Findings) (2021)

Keyphrases

natural language processing
cross modal
natural language
perceptual information
multi modal
computer vision
visual recognition
multimedia databases