RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation.

Samuel Pegg Kai Li Xiaolin Hu

Published in: ICLR (2024)

Keyphrases

visual speech
audio signals
visual speech recognition
image processing
feature extraction
hidden markov models
language model
multi modal
visual features
visual information
bitstream
acoustic features
audio visual speech recognition