Speaker Localization Based on Audio-Visual Bimodal Fusion.

Yingxin Zhu Hao-Ran Jin

Published in: J. Adv. Comput. Intell. Intell. Informatics (2021)

Keyphrases

audio visual
multimodal fusion
person authentication
multi modal
speaker verification
visual data
visual information
multimedia
emotion recognition
multi stream
information fusion
pattern recognition
low level
audio visual speech recognition
image classification
audio features