VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models.

Published in: CoRR (2024)

Keyphrases