Direct speech-to-speech translation with discrete units.

Ann Lee Peng-Jen Chen Changhan Wang Jiatao Gu Xutai Ma Adam Polyak Yossi Adi Qing He Yun Tang Juan Miguel Pino Wei-Ning Hsu

Published in: CoRR (2021)

Keyphrases

speech recognition
speech signal
speech synthesis
endpoint detection
recognition engine
audio visual
automatic speech recognition
text to speech
speaker identification
broadcast news
text to speech synthesis
spoken language
language acquisition
pattern recognition
data sets
spoken dialogue systems
speaker recognition
cross language information retrieval
speech recognizer
spontaneous speech
information retrieval systems
machine learning