Lip landmark-based audio-visual speech enhancement with multimodal feature fusion network.

Yangke Li Xinman Zhang

Published in: Neurocomputing (2023)

Keyphrases

audio visual
feature fusion
multi modal
audio visual speech recognition
multi stream
speech enhancement
visual information
multimedia
noise reduction
visual data
multiple features
speech signal
feature extraction
hidden markov models
feature vectors
high dimensional
image processing