Generation-Based Target Speech Extraction with Speech Discretization and Vocoder.

Linfeng Yu Wangyou Zhang Chenpeng Du Leying Zhang Zheng Liang Yanmin Qian

Published in: ICASSP (2024)

Keyphrases

speech recognition
speech synthesis
text to speech
database
speech signal
recognition engine
audio visual
automatic speech recognition
noisy environments
hidden markov models
spoken language
speaker recognition
hearing impaired
audio stream
vocal tract
multi stream
multimodal interfaces
generation process
image sequences
machine learning
neural network
data sets