TDFNet: An Efficient Audio-Visual Speech Separation Model with Top-down Fusion.

Samuel Pegg Kai Li Xiaolin Hu

Published in: CoRR (2024)

Keyphrases

high level
probabilistic model
visual information