Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze.

Ece Takmaz Sandro Pezzelle Lisa Beinborn Raquel Fernández

Published in: EMNLP (1) (2020)

Keyphrases

cross modal
image data
image retrieval
multiscale
image segmentation
image collections
image content
image features
image classification
high level
image regions
image representation
multi modal
spatial relationships
visual similarity
low level
spatial information
test images
video sequences
similarity measure