Audio-Visual Speaker Diarization Based on Spatiotemporal Bayesian Fusion.

Israel D. Gebru Sileye O. Ba Xiaofei Li Radu Horaud

Published in: CoRR (2016)

Keyphrases

audio visual
speaker diarization
speaker verification
multi modal
visual information
multimedia
emotion recognition
space time
speech recognition
visual data
information fusion
spatio temporal
maximum likelihood
audio features
high dimensional
probabilistic model
broadcast news