Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data.

Fahim Tajwar Anikait Singh Archit Sharma Rafael Rafailov Jeff Schneider Tengyang Xie Stefano Ermon Chelsea Finn Aviral Kumar

Published in: CoRR (2024)