Sequential Preference Ranking for Efficient Reinforcement Learning from Human Feedback.

Published in: NeurIPS (2023)

Keyphrases