RTFS-Net: Recurrent time-frequency modelling for efficient audio-visual speech separation.

Samuel Pegg Kai Li Xiaolin Hu

Published in: CoRR (2023)

Keyphrases

visual speech
multimedia
face recognition
multi modal
audio signal
frequency domain
speaker identification