A Compact Phoneme-To-Audio Aligner for Singing Voice.

Meizhen Zheng Peng Bai Xiaodong Shi

Published in: ADMA (2) (2023)

Keyphrases

prosodic features
speech synthesis
text to speech
music information retrieval
emotion recognition
audio features
speech recognition
multimedia
voice activity detection
speech sounds
audio visual
visual information
acoustic features
real time
speaker dependent
signal processing
audio recordings
visual data
speaker identification
mel frequency cepstral coefficients
e learning
data sets
audio content
visual speech
neural network
metadata
high level
pattern recognition
context dependent
facial expressions