Dense Reward for Free in Reinforcement Learning from Human Feedback.

Alex J. Chan Hao Sun Samuel Holt Mihaela van der Schaar

Published in: CoRR (2024)

Keyphrases