Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language Pre-training.

Published in: LREC/COLING (2024)

Keyphrases