Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence.

Published in: CoRR (2024)

Keyphrases