CorpusNÓS: A massive Galician corpus for training large language models.

Iria de-Dios-Flores Silvia Paniagua Suárez Cristina Carbajal-Pérez Daniel Bardanca Outeiriño Marcos García Pablo Gamallo

Published in: PROPOR (2024)

Keyphrases

language model
language modeling
document retrieval
n gram
language modelling
probabilistic model
document level
statistical machine translation
multiword
query expansion
retrieval model
information retrieval
speech recognition
smoothing methods
ad hoc information retrieval
test collection
translation model
training set
statistical language models
context sensitive
vector space model
pseudo relevance feedback
language models for information retrieval
naive bayes
training data
search engine
machine learning