FocusCap: Object-Focused Image Captioning with CLIP-Guided Language Model.

Zihan Kong Wei Li Haiwei Zhang Xiaojie Yuan

Published in: WISA (2023)

Keyphrases

language model
language modeling
image classification
image features
image representation
image retrieval
probabilistic model
image regions
n gram
information retrieval
query expansion
image content
document retrieval
mixture model
language modelling
statistical language models
image segmentation
language model for information retrieval
speech recognition
generative model
key frames
bayesian framework
retrieval model
test collection