Learning Representations from Audio-Visual Spatial Alignment.

Pedro Morgado Yi Li Nuno Vasconcelos

Published in: NeurIPS (2020)

Keyphrases

audio visual
multi modal
data sets
visual data
object recognition
information extraction