From Image to Video, what do we need in multimodal LLMs?

Suyuan Huang Haoxin Zhang Yan Gao Yao Hu Zengchang Qin

Published in: CoRR (2024)

Keyphrases