Exploring and Addressing Reward Confusion in Offline Preference Learning.

Xin Chen Sam Toyer Florian Shkurti

Published in: CoRR (2024)

Keyphrases

preference learning
ordinal regression
gaussian processes
pairwise comparison
label ranking
recommender systems
reinforcement learning
active learning
ranking functions
learning algorithm
machine learning
pairwise