Publication: Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation.