Learning Audio-Visual Correlations From Variational Cross-Modal Generation.

Ye Zhu Yu Wu Hugo Latapie Yi Yang Yan Yan

Published in: ICASSP (2021)

Keyphrases

audio visual
cross modal
multi modal
visual recognition
text classification
visual data
data sets
feature extraction
search engine
feature selection
information retrieval systems
image classification