Audio-Visual Event Localization via Recursive Fusion by Joint Co-Attention.

Bin Duan Hao Tang Wei Wang Ziliang Zong Guowei Yang Yan Yan

Published in: WACV (2021)

Keyphrases

audio visual
person authentication
multi modal
multimodal fusion
visual information
multi stream
video summarization
visual data
temporal context
event detection
emotion recognition
audio visual speech recognition
data sets
high dimensional data
information fusion