Secrets of RLHF in Large Language Models Part II: Reward Modeling.

Binghai Wang Rui Zheng Lu Chen Yan Liu Shihan Dou Caishuang Huang Wei Shen Senjie Jin Enyu Zhou Chenyu Shi Songyang Gao Nuo Xu Yuhao Zhou Xiaoran Fan Zhiheng Xi Jun Zhao Xiao Wang Tao Ji Hang Yan Lixing Shen Zhan Chen Tao Gui Qi Zhang Xipeng Qiu Xuanjing Huang Zuxuan Wu Yu-Gang Jiang

Published in: CoRR (2024)