MIMIC-IT: Multi-Modal In-Context Instruction Tuning.

Bo Li Yuanhan Zhang Liangyu Chen Jinghao Wang Fanyi Pu Jingkang Yang Chunyuan Li Ziwei Liu

Published in: CoRR (2023)

Keyphrases

multi modal
multi modality
audio visual
high dimensional
cross modal
fusing multiple
contextual information
uni modal
machine learning
video search
image annotation
context aware
image retrieval
anisotropic diffusion
higher level
image analysis
high level