GitHub Typo Corpus: A Large-Scale Multilingual Dataset of Misspellings and Grammatical Errors.

Masato Hagiwara Masato Mita

Published in: LREC (2020)

Keyphrases

million images
benchmark datasets
manually annotated
digital libraries
test set
small scale
cross language information retrieval
chinese english
web scale
information retrieval
parallel corpus
syntactic structures
spelling correction