Investigating Data Contamination in Modern Benchmarks for Large Language Models.

Chunyuan Deng Yilun Zhao Xiangru Tang Mark Gerstein Arman Cohan

Published in: CoRR (2023)

Keyphrases

language model
retrieval model
language modeling
information retrieval
training data
document retrieval
xml documents
probabilistic model
query expansion
mixture model
error rate
image annotation
context sensitive