Direct Preference Optimization: Your Language Model is Secretly a Reward Model.

Published in: NeurIPS (2023)

Keyphrases