Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models.

Chi Chen Ruoyu Qin Fuwen Luo Xiaoyue Mi Peng Li Maosong Sun Yang Liu

Published in: CoRR (2023)

Keyphrases

language model
language modeling
document retrieval
probabilistic model
n gram
speech recognition
information retrieval
retrieval model
test collection
statistical language models
query expansion
multimedia
vector space model
language modelling
visual information
query terms
context sensitive
language models for information retrieval
document ranking
multi modal
visual features
low level
language model for information retrieval
ad hoc information retrieval
document length
visual data
translation model
pseudo relevance feedback
knn