Audio-Visual Active Speaker Extraction for Sparsely Overlapped Multi-talker Speech.

Junjie Li Ruijie Tao Zexu Pan Meng Ge Shuai Wang Haizhou Li

Published in: CoRR (2023)

Keyphrases

audio visual
multi modal
visual information
sound source
multi stream
speaker verification
multimedia
emotion recognition
audio features
visual data
digit recognition
audio visual speech recognition
person authentication
information extraction
computer vision
image set
speaker recognition