Multimodal embedding fusion for robust speaker role recognition in video broadcast.

Published in: ASRU (2015)

Keyphrases