Reading to Listen at the Cocktail Party: Multi-Modal Speech Separation.

Akam Rahimi Triantafyllos Afouras Andrew Zisserman

Published in: CVPR (2022)

Keyphrases

multi modal
audio visual
speech recognition
speech signal
high dimensional
sound source
semantic concepts
multi modality
video search
image annotation
automatic speech recognition
broadcast news
cross modal
machine learning
text to speech
fusing multiple