Towards Reasoning Ability in Scene Text Visual Question Answering.

Qingqing Wang Liqiang Xiao Yue Lu Yaohui Jin Hao He

Published in: ACM Multimedia (2021)

Keyphrases

image sequences
question answering
answering questions
information retrieval
named entities
information extraction
qa clef
natural language processing
visual information
knowledge representation
natural language
video sequences
natural language questions
visual features
question answering systems
text detection
answer extraction
scene text
knowledge base
multi modal
low level
natural scene images
artificial intelligence