Grounding Language Models to Images for Multimodal Generation.

Jing Yu Koh Ruslan Salakhutdinov Daniel Fried

Published in: CoRR (2023)

Keyphrases

language model
language modeling
image database
image data
image features
n gram
image classification
retrieval model
image retrieval
speech recognition
information retrieval
document retrieval
language modelling
image regions
image collections
probabilistic model
image content
image annotation
audio visual
smoothing methods
statistical language models
language models for information retrieval