Human Alignment of Large Language Models through Online Preference Optimisation.

Daniele Calandriello Daniel Guo Rémi Munos Mark Rowland Yunhao Tang Bernardo Ávila Pires Pierre Harvey Richemond Charline Le Lan Michal Valko Tianqi Liu Rishabh Joshi Zeyu Zheng Bilal Piot

Published in: CoRR (2024)

Keyphrases

language model
language modeling
n gram
probabilistic model
speech recognition
document retrieval
language modelling
information retrieval
retrieval model
statistical language models
query expansion
test collection
context sensitive
query terms
ad hoc information retrieval
language models for information retrieval
document length
document ranking
smoothing methods
vector space model
word error rate
language model for information retrieval
retrieval effectiveness
user preferences
language modeling framework