Synthesizing expressive speech from amateur audiobook recordings.

Éva Székely Tamás Gábor Csapó Bálint Tóth Péter Mihajlik Julie Carson-Berndsen

Published in: SLT (2012)

Keyphrases

spontaneous speech
audio visual
acoustic features
audio recordings
speech recognition
speech signal
spoken language
speech synthesis
multi modal
human machine interaction
digital camera
automatic speech recognition
endpoint detection
text to speech
audio features
multi stream
dialogue system
text to speech synthesis
noisy environments
speech processing
visual information
vocal tract
visual features
hidden markov models
audio stream