Rethinking Audio-Visual Synchronization for Active Speaker Detection.

Abudukelimu Wuerkaixi You Zhang Zhiyao Duan Changshui Zhang

Published in: MLSP (2022)

Keyphrases

audio visual
multi stream
multi modal
visual information
emotion recognition
visual data
speaker verification
audio visual speech recognition
temporal context
person authentication
video summarization
multimedia
low level
data processing
audio features