Query-Policy Misalignment in Preference-Based Reinforcement Learning.

Xiao Hu Jianxiong Li Xianyuan Zhan Qing-Shan Jia Ya-Qin Zhang

Published in: CoRR (2023)

Keyphrases