Building Audio-Visual Phonetically Annotated Arabic Corpus for Expressive Text to Speech.

Omnia Abdo Sherif M. Abdou Mervat Fashal

Published in: INTERSPEECH (2017)

Keyphrases

audio visual
text to speech
multi modal
prosodic features
speaker verification
visual information
speech synthesis
multimedia
visual data
emotion recognition
multi stream
text to speech synthesis
word processing
audio visual speech recognition
person authentication
pattern recognition
language identification