AVA-AVD: Audio-visual Speaker Diarization in the Wild.

Eric Zhongcong Xu Zeyang Song Chao Feng Mang Ye Mike Zheng Shou

Published in: CoRR (2021)

Keyphrases

audio visual
speaker diarization
speaker verification
multi modal
visual information
speech recognition
visual data
multimedia
emotion recognition
multi stream
speaker identification
audio features
broadcast news
bayesian information criterion
machine learning