ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval.

Mengjun Cheng Yipeng Sun Longchao Wang Xiongwei Zhu Kun Yao Jie Chen Guoli Song Junyu Han Jingtuo Liu Errui Ding Jingdong Wang

Published in: CoRR (2022)

Keyphrases