Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback.

Stephen Casper Xander Davies Claudia Shi Thomas Krendl Gilbert Jérémy Scheurer Javier Rando Rachel Freedman Tomasz Korbak David Lindner Pedro Freire Tony Wang Samuel Marks Charbel-Raphaël Ségerie Micah Carroll Andi Peng Phillip J. K. Christoffersen Mehul Damani Stewart Slocum Usman Anwar Anand Siththaranjan Max Nadeau Eric J. Michaud Jacob Pfau Dmitrii Krasheninnikov Xin Chen Lauro Langosco Peter Hase Erdem Biyik Anca D. Dragan David Krueger Dorsa Sadigh Dylan Hadfield-Menell

Published in: CoRR (2023)