Rethinking Benchmark and Contamination for Language Models with Rephrased Samples.

Shuo Yang Wei-Lin Chiang Lianmin Zheng Joseph E. Gonzalez Ion Stoica

Published in: CoRR (2023)

Keyphrases

language model
language modeling
document retrieval
language modelling
probabilistic model
retrieval model
n gram
information retrieval
speech recognition
query expansion
test collection
statistical language models
context sensitive
pseudo relevance feedback
vector space model
statistical language modeling
translation model
query terms
ad hoc information retrieval
language models for information retrieval
query specific
word segmentation
search engine