Adversarial Training with OCR Modality Perturbation for Scene-Text Visual Question Answering.

Zhixuan Shen Haonan Luo Sijia Li Tianrui Li

Published in: CoRR (2024)

Keyphrases

question answering
question answering systems
information extraction
information retrieval
character recognition
visual information
multi modal
natural language
training set
named entities
optical character recognition
scene text
text detection
visual features
document images
text mining