Multi-Modulation Network for Audio-Visual Event Localization.

Hao Wang Zheng-Jun Zha Liang Li Xuejin Chen Jiebo Luo

Published in: CoRR (2021)

Keyphrases

audio visual
multi modal
visual information
visual data
multi stream
person authentication
audio visual speech recognition
event detection
multimedia
emotion recognition
video summarization
temporal context
computer vision
domain knowledge
multimodal fusion