Offline Regularised Reinforcement Learning for Large Language Models Alignment.

Pierre Harvey Richemond Yunhao Tang Daniel Guo Daniele Calandriello Mohammad Gheshlaghi Azar Rafael Rafailov Bernardo Ávila Pires Eugene Tarassov Lucas Spangher Will Ellsworth Aliaksei Severyn Jonathan Mallinson Lior Shani Gil Shamir Rishabh Joshi Tianqi Liu Rémi Munos Bilal Piot

Published in: CoRR (2024)