Confronting Reward Model Overoptimization with Constrained RLHF.

Ted Moskovitz Aaditya K. Singh DJ Strouse Tuomas Sandholm Ruslan Salakhutdinov Anca D. Dragan Stephen Marcus McAleer

Published in: ICLR (2024)

Keyphrases