AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment.

Ruiqi Li Rongjie Huang Lichao Zhang Jinglin Liu Zhou Zhao

Published in: CoRR (2023)

Keyphrases

cross modal
multi modal
audio visual
audio features
visual data
multimedia retrieval
image retrieval
multimedia databases
music information retrieval
visual recognition
visual similarity
perceptual information
similarity measure
visual features
visual information
text data