Regularized Best-of-N Sampling to Mitigate Reward Hacking for Language Model Alignment.

Yuu Jinnai Tetsuro Morimura Kaito Ariu Kenshi Abe

Published in: CoRR (2024)

Keyphrases

language model
language modeling
probabilistic model
n gram
speech recognition
retrieval model
document retrieval
ad hoc information retrieval
information retrieval
language modelling
test collection
query expansion
reinforcement learning
smoothing methods
context sensitive
vector space model
pseudo relevance feedback
word error rate
statistical language models
language model for information retrieval
mixture model
translation model
machine learning