Deep Audio-Visual Speech Separation Based on Facial Motion.

Rémi Rigal Jacques Chodorowski Benoît Zerr

Published in: Interspeech (2021)

Keyphrases

audio visual
facial motion
multi modal
facial expressions
video sequences
sound source
visual information
multi stream
hidden markov models
visual data
multimedia
statistical modeling
emotion recognition
human subjects
audio features
audio visual speech recognition
data sets
facial actions
facial animation
metadata