Distilling Audio-Visual Knowledge by Compositional Contrastive Learning.

Yanbei Chen Yongqin Xian A. Sophia Koepke Ying Shan Zeynep Akata

Published in: CVPR (2021)

Keyphrases

audio visual
prior knowledge
multi modal
knowledge base
object recognition
domain knowledge
visual information
computer vision
three dimensional
spatio temporal
feature vectors
structured data
learning mechanism
temporal context