VDT: General-purpose Video Diffusion Transformers via Mask Modeling.

Haoyu Lu Guoxing Yang Nanyi Fei Yuqi Huo Zhiwu Lu Ping Luo Mingyu Ding

Published in: ICLR (2024)

Keyphrases

general purpose
video sequences
special purpose
multimedia
domain specific
video streams
video data
video frames
key frames
space time
real time
video content
tightly coupled
real time video
video images
video processing
digital video
temporal information