A New Massive Multilingual Dataset for High-Performance Language Technologies.

Ona de Gibert Graeme Nail Nikolay Arefyev Marta Bañón Jelmer van der Linde Shaoxiong Ji Jaume Zaragoza-Bernabeu Mikko Aulamo Gema Ramírez-Sánchez Andrey Kutuzov Sampo Pyysalo Stephan Oepen Jörg Tiedemann

Published in: CoRR (2024)

Keyphrases

language specific
language resources
programming language
parallel corpus
language learning
database
digital libraries
multilingual documents
data analysis
language independent
feature set
massive datasets
natural language
extensible markup language
artificial intelligence
comparable corpora
text generation
massive data
cross lingual
emerging technologies
training dataset
web technologies
st century
n gram
natural language processing
mobile devices
knowledge base
feature selection
data mining