CROP: Conservative Reward for Model-based Offline Policy Optimization.

Hao Li Xiao-Hu Zhou Xiao-Liang Xie Shi-Qi Liu Zhen-Qiu Feng Xiao-Yin Liu Mei-Jiang Gui Tian-Yu Xiang De-Xing Huang Bo-Xian Yao Zeng-Guang Hou

Published in: CoRR (2023)