What Makes the Sound?: A Dual-Modality Interacting Network for Audio-Visual Event Localization.

Janani Ramaswamy

Published in: ICASSP (2020)

Keyphrases

audio visual
multi modal
visual information
sound source
video summarization
multi stream
temporal context
emotion recognition
person authentication
event detection
visual data
audio visual speech recognition
multimedia
audio features
high dimensional data
high dimensional
feature selection