Learning Explicit and Implicit Latent Common Spaces for Audio-Visual Cross-Modal Retrieval.

Donghuo Zeng Jianming Wu Gen Hattori Yi Yu Rong Xu

Published in: CoRR (2021)

Keyphrases

cross modal
audio visual
multi modal
information retrieval
visual data
visual recognition
feature vectors
xml documents
nearest neighbor
natural language processing
image classification
multimedia retrieval