ViT-TTS: Visual Text-to-Speech with Scalable Diffusion Transformer.

Huadai Liu Rongjie Huang Xuan Lin Wenqiang Xu Maozong Zheng Hong Chen Jinzheng He Zhou Zhao

Published in: EMNLP (2023)