Audio-Visual Speaker Recognition with a Cross-Modal Discriminative Network.

Ruijie Tao Rohan Kumar Das Haizhou Li

Published in: INTERSPEECH (2020)

Keyphrases

audio visual
cross modal
multi modal
speaker recognition
speaker verification
visual data
visual information
emotion recognition
audio features
image annotation
multimedia data
feature selection
gaussian mixture model
visual features
high dimensional
multiscale
feature extraction