Multi-turn Reinforcement Learning from Preference Human Feedback.

Lior Shani Aviv Rosenberg Asaf Cassel Oran Lang Daniele Calandriello Avital Zipori Hila Noga Orgad Keller Bilal Piot Idan Szpektor Avinatan Hassidim Yossi Matias Rémi Munos

Published in: CoRR (2024)

Keyphrases