RRHF: Rank Responses to Align Language Models with Human Feedback without tears.

Zheng Yuan Hongyi Yuan Chuanqi Tan Wei Wang Songfang Huang Fei Huang

Published in: CoRR (2023)

Keyphrases

language model
language modeling
n gram
document retrieval
speech recognition
information retrieval
query expansion
probabilistic model
language modelling
statistical language models
retrieval model
test collection
context sensitive
smoothing methods
vector space model
ad hoc information retrieval
relevance model
document ranking
pseudo relevance feedback
word error rate
language models for information retrieval
language model for information retrieval
user feedback
document length
text retrieval
okapi bm
relevant documents
spoken term detection