BLINK: Multimodal Large Language Models Can See but Not Perceive.

Xingyu Fu Yushi Hu Bangzheng Li Yu Feng Haoyu Wang Xudong Lin Dan Roth Noah A. Smith Wei-Chiu Ma Ranjay Krishna

Published in: CoRR (2024)

Keyphrases

language model
language modeling
n gram
probabilistic model
language modelling
document retrieval
information retrieval
test collection
multi modal
speech recognition
query expansion
retrieval model
language models for information retrieval
pseudo relevance feedback
ad hoc information retrieval
translation model
vector space model
multimedia
smoothing methods
document length
statistical language models
context sensitive
query terms
audio visual
relevance model
machine learning
language modeling approaches
spoken term detection