Generalizing Reward Modeling for Out-of-Distribution Preference Learning.

Published in: CoRR (2024)

Keyphrases

preference learning
ordinal regression
probability distribution
gaussian processes
information retrieval
multi class
pairwise comparison
machine learning
reinforcement learning
rough sets