VIMI: Grounding Video Generation through Multi-modal Instruction.

Yuwei Fang Willi Menapace Aliaksandr Siarohin Tsai-Shien Chen Kuan-Chien Wang Ivan Skorokhodov Graham Neubig Sergey Tulyakov

Published in: CoRR (2024)