Multiple active speaker localization based on audio-visual fusion in two stages.

Zhao Li Thorsten Herfet Martin P. Grochulla Thorsten Thormählen

Published in: MFI (2012)

Keyphrases

audio visual
multi modal
person authentication
multimodal fusion
visual information
visual data
emotion recognition
speaker verification
temporal context
multimedia
audio features
multi stream
audio visual speech recognition
domain knowledge