Is incremental cross-show speaker diarization efficient for processing large volumes of data?

Grégor Dupuy Sylvain Meignier Yannick Estève

Published in: INTERSPEECH (2014)

Keyphrases

data sets
training data
computer vision
visual information
information retrieval
face recognition
video sequences
artificial neural networks