Listen, Watch and Understand at the Cocktail Party: Audio-Visual-Contextual Speech Separation.

Chenda Li Yanmin Qian

Published in: INTERSPEECH (2020)

Keyphrases

audio visual
multi modal
visual information
emotion recognition
sound source
multi stream
multimedia
speaker verification
contextual information
audio visual speech recognition
visual data
temporal context
person authentication
audio features
human motion
context aware
spatio temporal
three dimensional