RLHF Workflow: From Reward Modeling to Online RLHF.

Hanze Dong Wei Xiong Bo Pang Haoxiang Wang Han Zhao Yingbo Zhou Nan Jiang Doyen Sahoo Caiming Xiong Tong Zhang

Published in: CoRR (2024)

Keyphrases