Audio-Visual Active Speaker Extraction for Sparsely Overlapped Multi-Talker Speech.

Junjie Li Ruijie Tao Zexu Pan Meng Ge Shuai Wang Haizhou Li

Published in: ICASSP (2024)

Keyphrases

audio visual
multi modal
visual information
speaker verification
sound source
visual data
multimedia
multi stream
emotion recognition
digit recognition
person authentication
audio features
audio visual speech recognition
low level
information extraction
data analysis