ODIN: Disentangled Reward Mitigates Hacking in RLHF.

Lichang Chen Chen Zhu Davit Soselia Jiuhai Chen Tianyi Zhou Tom Goldstein Heng Huang Mohammad Shoeybi Bryan Catanzaro

Published in: CoRR (2024)

Keyphrases