DE-COP: Detecting Copyrighted Content in Language Models Training Data.

André V. Duarte Xuandong Zhao Arlindo L. Oliveira Lei Li

Published in: CoRR (2024)

Keyphrases

language model
training data
language modeling
n gram
document retrieval
probabilistic model
information retrieval
query expansion
statistical language models
retrieval model
copyright infringement
language modelling
ad hoc information retrieval
machine learning
word clouds
learning algorithm
training set
speech recognition
query terms
pseudo relevance feedback
document ranking
language models for information retrieval
context sensitive
test collection
multimedia
relevance model
search engine