Audio-Visual Deep Clustering for Speech Separation.

Rui Lu Zhiyao Duan Changshui Zhang

Published in: IEEE ACM Trans. Audio Speech Lang. Process. (2019)

Keyphrases

audio visual
multi modal
visual information
multi stream
emotion recognition
sound source
multimedia
visual data
audio visual speech recognition
person authentication
temporal context
data points
speaker verification
low level
knn
text classification