Textless Speech-to-Speech Translation on Real Data.

Ann Lee Hongyu Gong Paul-Ambroise Duquenne Holger Schwenk Peng-Jen Chen Changhan Wang Sravya Popuri Juan Pino Jiatao Gu Wei-Ning Hsu

Published in: CoRR (2021)

Keyphrases

speech recognition
audio visual
speech synthesis
text to speech
data sets
synthetic data
speech signal
automatic speech recognition
dialogue system
spoken language
endpoint detection
spontaneous speech
speech recognizer
audio signals
broadcast news
machine translation
pattern recognition
case study
spoken dialogue systems
speaker verification
emotion recognition
multi stream
multi modal
language model
lexical features
recognition engine