Cooperative Dual Attention for Audio-Visual Speech Enhancement with Facial Cues.

Feixiang Wang Shuang Yang Shiguang Shan Xilin Chen

Published in: CoRR (2023)

Keyphrases

audio visual
emotion recognition
speech enhancement
multimodal fusion
multi modal
noisy environments
visual information
signal to noise ratio
noise reduction
multi stream
multimedia
linear prediction
visual data
speaker verification
speech signal
facial expressions
wiener filter
single channel
prior knowledge
face recognition
image restoration
multiscale
audio features
vocal tract
smoothing algorithm
image sequences
pattern recognition