SCANet: A Self- and Cross-Attention Network for Audio-Visual Speech Separation.

Kai Li Runxuan Yang Xiaolin Hu

Published in: CoRR (2023)

Keyphrases

visual speech
audio visual speech recognition
multimedia
wireless sensor networks
visual speech recognition
multiresolution
hidden markov models
visual attention