VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval.

Junjie Zhou Zheng Liu Shitao Xiao Bo Zhao Yongping Xiong

Published in: ACL (1) (2024)

Keyphrases

multi modal
video search
cross modal
information retrieval
text retrieval
multiple modalities
high dimensional
audio visual
text mining
multi modality
keywords
multimedia documents
relevance feedback
image retrieval
text documents
vector space
semantic concepts
multimedia retrieval
auto annotation
retrieval systems
magnetic resonance images
content based retrieval
image annotation
information retrieval systems
co occurrence
similarity measure
face recognition
feature selection
search engine