CAST: Cross-Modal Retrieval and Visual Conditioning for image captioning.

Shan Cao Gaoyun An Yigang Cen Zhaoqilin Yang Weisi Lin

Published in: Pattern Recognit. (2024)

Keyphrases