XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems to Improve Language Understanding.

Chan-Jan Hsu Hung-yi Lee Yu Tsao

Published in: CoRR (2022)

Keyphrases

visual information
cross modal
language understanding
visual data
visual similarity
visual features
multi modal
eye movements
low level
databases
artificial intelligence
training data
natural language
semantic information
low level features
visual content