SpeechSyncNet: Speech to Talking Landmark via the fusion of prior frame landmark and the audio.

Xuan-Nam Cao Quoc-Huy Trinh Van-Son Ho Minh-Triet Tran

Published in: VCIP (2023)

Keyphrases

audio visual
landmark extraction
landmark detection
multimedia
speech recognition
landmark recognition
speaker identification
audio stream
visual landmarks
cepstral features
speech processing
signal processing
image registration
visual information
emotion recognition
digital audio
multimodal fusion
prosodic features
broadcast news
landmark points
text to speech
spoken language
audio features
multi sensor
information fusion
data fusion
mobile robot