X$^{2}$2-VLM: All-in-One Pre-Trained Model for Vision-Language Tasks.

Published in: IEEE Trans. Pattern Anal. Mach. Intell. (2024)

Keyphrases