Seeing Voices and Hearing Voices: Learning Discriminative Embeddings Using Cross-Modal Self-Supervision.

Published in: INTERSPEECH (2020)

Keyphrases