Vset: A Multimodal Transformer for Visual Speech Enhancement.

Karthik Ramesh Chao Xing Wupeng Wang Dong Wang Xiao Chen

Published in: ICASSP (2021)

Keyphrases

speech enhancement
noisy environments
single channel
speech signal
noise reduction
multi modal
signal to noise ratio
linear prediction
visual information
visual data
wiener filter
audio visual
vocal tract
lossless compression
image processing
multi channel
visual features
prior knowledge