Learning Optimal Advantage from Preferences and Mistaking It for Reward.

W. Bradley Knox Stephane Hatgis-Kessell Sigurdur O. Adalgeirsson Serena Booth Anca D. Dragan Peter Stone Scott Niekum

Published in: AAAI (2024)

Keyphrases