Audio-Visual Tracking of Concurrent Speakers.

Xinyuan Qian Alessio Brutti Oswald Lanz Maurizio Omologo Andrea Cavallaro

Published in: IEEE Trans. Multim. (2022)

Keyphrases

audio visual
audio visual speech recognition
multi modal
multi stream
visual information
visual data
video summarization
temporal context
speech recognition
multimedia
person authentication
appearance model
pattern recognition
emotion recognition
audio features
contextual information
multimodal fusion