A New Massive Multilingual Dataset for High-Performance Language Technologies.

Ona de Gibert Graeme Nail Nikolay Arefyev Marta Bañón Jelmer van der Linde Shaoxiong Ji Jaume Zaragoza-Bernabeu Mikko Aulamo Gema Ramírez-Sánchez Andrey Kutuzov Sampo Pyysalo Stephan Oepen Jörg Tiedemann

Published in: LREC/COLING (2024)