EquiAV: Leveraging Equivariance for Audio-Visual Contrastive Learning.

Jongsuk Kim Hyeongkeun Lee Kyeongha Rho Junmo Kim Joon Son Chung

Published in: CoRR (2024)

Keyphrases

audio visual
multi modal
image sequences
human computer interaction
information retrieval
knowledge base
image data
nearest neighbor