Feedback Loops With Language Models Drive In-Context Reward Hacking.

Alexander Pan Erik Jones Meena Jagadeesan Jacob Steinhardt

Published in: CoRR (2024)

Keyphrases

language model
feedback loops
context sensitive
language modeling
n gram
language modelling
probabilistic model
speech recognition
document retrieval
information retrieval
retrieval model
statistical language models
language models for information retrieval
query terms
reinforcement learning
smoothing methods
query expansion
relevance model
test collection
graphical models
neural network
pseudo relevance feedback
feedback loop
bayesian networks
ad hoc information retrieval