HRLAIF: Improvements in Helpfulness and Harmlessness in Open-domain Reinforcement Learning From AI Feedback.

Ang Li Qiugen Xiao Peng Cao Jian Tang Yi Yuan Zijie Zhao Xiaoyuan Chen Liang Zhang Xiangyang Li Kaitong Yang Weidong Guo Yukang Gan Xu Yu Daniell Wang Ying Shan

Published in: CoRR (2024)

Keyphrases