STEMM: Self-learning with Speech-text Manifold Mixup for Speech Translation.

Qingkai Fang Rong Ye Lei Li Yang Feng Mingxuan Wang

Published in: ACL (1) (2022)

Keyphrases

text to speech
speech recognition
text to speech synthesis
speech signal
text input
audio visual
speech synthesis
english text
lexical features
spontaneous speech
text recognition
multi lingual
spoken language
text mining
keywords
noisy environments
machine translation system
language acquisition
emotion recognition
vocal tract
english words
automatic speech recognition
co occurrence
hidden markov models
database
hearing impaired