Multi-Modal Representation Learning with Text-Driven Soft Masks.

Jaeyoo Park Bohyung Han

Published in: CVPR (2023)

Keyphrases

multi modal
video search
cross modal
multi modality
information retrieval
audio visual
active learning
low level
text mining
mutual information
image representation
image annotation
visual recognition
automatic image annotation
auto annotation