Contrastive Preference Learning: Learning from Human Feedback without Reinforcement Learning.

Published in: ICLR (2024)

Keyphrases