Cross-Modal Attention Networks with Modality Disentanglement for Scene-Text VQA.

Zeqin Fang Lin Li Zhongwei Xie Jingling Yuan

Published in: ICME (2022)

Keyphrases

cross modal
multi modal
image database
scene text
image retrieval
visual data
text detection
natural scene images
multimedia databases
video database
multimedia retrieval
image segmentation
visual attention
content based retrieval