RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs.

Shreyas Chaudhari Pranjal Aggarwal Vishvak Murahari Tanmay Rajpurohit Ashwin Kalyan Karthik Narasimhan Ameet Deshpande Bruno Castro da Silva

Published in: CoRR (2024)

Keyphrases