Multimodal Graph-Based Audio-Visual Event Localization.

Zhen Wang Dongyuan Li Manabu Okumura

Published in: ICASSP (2024)

Keyphrases

audio visual
multi modal
visual information
visual data
multi stream
video summarization
multimodal fusion
event detection
temporal context
multimedia
emotion recognition
person authentication
data sets
high dimensional
audio visual speech recognition