Speaker-aware Cross-modal Fusion Architecture for Conversational Emotion Recognition.

Huan Zhao Bo Li Zixing Zhang

Published in: INTERSPEECH (2023)

Keyphrases

cross modal
multi modal
audio visual
emotion recognition
speaker verification
emotional speech
visual data
information fusion
high dimensional
image annotation
data fusion
co occurrence
visual features
image classification
multimedia retrieval
facial expressions
image retrieval
natural language