Automatic Speech Disentanglement for Voice Conversion using Rank Module and Speech Augmentation.

Zhonghua Liu Shijun Wang Ning Chen

Published in: INTERSPEECH (2023)

Keyphrases

text to speech
speech recognition
speech synthesis
emotion recognition
voice activity detection
fundamental frequency
spoken language
speech processing
speech music discrimination
endpoint detection
speech quality
speech signal
audio visual
dialogue system
speech recognition errors
speech sounds
automatic speech recognition systems
linear prediction
speaker recognition
spectral features
spoken dialogue systems
spontaneous speech
recognition engine
noisy environments
text to speech synthesis
hearing impaired
gaussian mixture model