Audio-Visual Scene Classification Based on Multi-modal Graph Fusion.

Han Lei Ning Chen

Published in: INTERSPEECH (2022)

Keyphrases

multi modal
audio visual
scene classification
multi modality
object recognition
biologically inspired
image classification
natural scenes
single modality
visual words
image representation
audio features
humanoid robot
cross modal
image annotation
machine learning
natural images
bag of features
image database
pairwise