Deduplicating Training Data Makes Language Models Better.

Katherine Lee Daphne Ippolito Andrew Nystrom Chiyuan Zhang Douglas Eck Chris Callison-Burch Nicholas Carlini

Published in: ACL (1) (2022)

Keyphrases

language model
training data
language modeling
document retrieval
probabilistic model
n gram
retrieval model
speech recognition
statistical language models
query expansion
language modelling
test collection
information retrieval
document ranking
context sensitive
pseudo relevance feedback
smoothing methods
learning algorithm
decision trees
query terms
supervised learning
training set
ad hoc information retrieval
labeled data
vector space model
word error rate
language models for information retrieval
translation model
classification accuracy
feature selection