Audio-Visual Grouping Network for Sound Localization from Mixtures.

Shentong Mo Yapeng Tian

Published in: CoRR (2023)

Keyphrases

audio visual
multi modal
visual information
sound source
visual data
multi stream
multimedia
temporal context
multiscale
emotion recognition
data processing
audio features