InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining.

Junyang Lin An Yang Yichang Zhang Jie Liu Jingren Zhou Hongxia Yang

Published in: CoRR (2020)

Keyphrases

multi modal
computer vision
image processing
cross modal
multi modality
high dimensional
semantic concepts
video search
image annotation
uni modal