Efficient Speaker Naming via Deep Audio-Face Fusion and End-to-End Attention Model.

Xin Liu Jiajia Geng Haibin Ling

Published in: ACPR (2017)

Keyphrases

end to end
audio visual
real time
real world
multimedia
facial expressions
multi layer
speaker verification