Unlock Multi-Modal Capability of Dense Retrieval via Visual Module Plugin.

Tianshuo Zhou Sen Mei Xinze Li Zhenghao Liu Chenyan Xiong Zhiyuan Liu Yu Gu Ge Yu

Published in: CoRR (2023)

Keyphrases

multi modal
cross modal
video search
single modality
multi modality
auto annotation
information retrieval
audio visual
visual information
high dimensional
multiple modalities
image database
image annotation
image processing
humanoid robot
semantic concepts
visual similarity
information retrieval systems
image retrieval
multimedia databases
visual features
x ray
object recognition