Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze.

Ece Takmaz Sandro Pezzelle Lisa Beinborn Raquel Fernández

Published in: CoRR (2020)

Keyphrases

cross modal
image data
image retrieval
image features
image classification
visual similarity
image content
multiscale
multi modal
visual recognition
image segmentation
image regions
high level
test images
image collections
spatial information
multimedia databases
keypoints
multimedia retrieval
low level