XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems to Improve Language Understanding.

Chan-Jan Hsu Hung-yi Lee Yu Tsao

Published in: ACL (2) (2022)

Keyphrases

visual information
cross modal
visual data
language understanding
visual features
multi modal
low level
visual content
visual similarity
image representation
image collections
natural language
image database
co occurrence
language processing
spoken dialogue systems
databases