Learning Video Context as Interleaved Multimodal Sequences.

Kevin Qinghong Lin Pengchuan Zhang Difei Gao Xide Xia Joya Chen Ziteng Gao Jinheng Xie Xuhong Xiao Mike Zheng Shou

Published in: CoRR (2024)