Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis.

Willi Menapace Aliaksandr Siarohin Ivan Skorokhodov Ekaterina Deyneka Tsai-Shien Chen Anil Kag Yuwei Fang Aleksei Stoliar Elisa Ricci Jian Ren Sergey Tulyakov

Published in: CoRR (2024)