Deduplicating Training Data Makes Language Models Better.

Katherine Lee Daphne Ippolito Andrew Nystrom Chiyuan Zhang Douglas Eck Chris Callison-Burch Nicholas Carlini

Published in: CoRR (2021)

Keyphrases

language model
training data
language modeling
document retrieval
n gram
probabilistic model
information retrieval
speech recognition
language modelling
query expansion
test collection
statistical language models
retrieval model
decision trees
context sensitive
training set
pseudo relevance feedback
smoothing methods
translation model
ad hoc information retrieval
vector space model
document ranking
supervised learning
classification accuracy
language models for information retrieval
language model for information retrieval
knn
relevance model
term dependencies
document length