LiPO: Listwise Preference Optimization through Learning-to-Rank.

Tianqi Liu Zhen Qin Junru Wu Jiaming Shen Misha Khalman Rishabh Joshi Yao Zhao Mohammad Saleh Simon Baumgartner Jialu Liu Peter J. Liu Xuanhui Wang

Published in: CoRR (2024)