Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion.

Yannis Flet-Berliac Nathan Grinsztajn Florian Strub Eugene Choi Chris Cremer Arash Ahmadian Yash Chandak Mohammad Gheshlaghi Azar Olivier Pietquin Matthieu Geist

Published in: CoRR (2024)

Keyphrases