Muse: Multi-Modal Target Speaker Extraction with Visual Cues.

Zexu Pan Ruijie Tao Chenglin Xu Haizhou Li

Published in: ICASSP (2021)

Keyphrases

multi modal
visual cues
audio visual
visual information
low level
multiple modalities
semantic concepts
video search
cross modal
multi modality
information retrieval
high dimensional
search engine
multiple visual cues