LaTr: Layout-Aware Transformer for Scene-Text VQA.

Ali Furkan Biten Ron Litman Yusheng Xie Srikar Appalaraju R. Manmatha

Published in: CVPR (2022)

Keyphrases

scene text
text detection
natural scene images
image database
video database
computer vision
complex background
scene images