On the importance of pre-training data volume for compact language models.

Vincent Micheli Martin d'Hoffschmidt François Fleuret

Published in: CoRR (2020)

Keyphrases

language model
training data
language modeling
n gram
speech recognition
document retrieval
probabilistic model
query expansion
language modelling
information retrieval
test collection
retrieval model
context sensitive
decision trees
statistical language models
classification accuracy
training set
smoothing methods
pseudo relevance feedback
ad hoc information retrieval
vector space model
machine learning
language models for information retrieval
language model for information retrieval
supervised learning
document ranking
term dependencies
speech signal
query terms