Disentangled Speech Embeddings using Cross-modal Self-supervision.

Arsha Nagrani Joon Son Chung Samuel Albanie Andrew Zisserman

Published in: CoRR (2020)

Keyphrases

cross modal
multi modal
multimedia retrieval
visual recognition
multimedia databases
low dimensional
image retrieval
vector space
perceptual information
visual data
visual similarity
high dimensional data
image classification
dimensionality reduction
active learning
distance measure
web pages