Direct Speech-to-speech Translation without Textual Annotation using Bottleneck Features.

Junhui Zhang Junjie Pan Xiang Yin Zejun Ma

Published in: CoRR (2022)

Keyphrases

speech recognition
speech signal
spectral features
broadcast news
feature extraction
recognition engine
speech synthesis
textual features
spoken language
metadata
feature set
automatic speech recognition
text to speech
feature space
multi modal
extracted features
active learning
feature vectors
human computer interaction
audio visual
dialogue system
co occurrence
classification accuracy