Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual Context for Image Captioning.

Chia-Wen Kuo Zsolt Kira

Published in: CVPR (2022)

Keyphrases

input image
image content
image features
multiscale
image retrieval
image representation
image classification
image data
image segmentation
high resolution
image collections
multi modal
bounding box
object detection
low level
image regions
co occurrence
natural images
visual information
visual content