MIRTT: Learning Multimodal Interaction Representations from Trilinear Transformers for Visual Question Answering.

Published in: EMNLP (Findings) (2021)

Keyphrases