Aligning Crowd Feedback via Distributional Preference Reward Modeling.

Dexun Li Cong Zhang Kuicai Dong Derrick-Goh-Xin Deik Ruiming Tang Yong Liu

Published in: CoRR (2024)

Keyphrases

co occurrence
neural network
reinforcement learning
expert systems
relevance feedback
user feedback
image registration
crowd simulation