InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation.

Yi Wang Yinan He Yizhuo Li Kunchang Li Jiashuo Yu Xin Ma Xinhao Li Guo Chen Xinyuan Chen Yaohui Wang Ping Luo Ziwei Liu Yali Wang Limin Wang Yu Qiao

Published in: ICLR (2024)