REBEL: Reinforcement Learning via Regressing Relative Rewards.

Zhaolin Gao Jonathan D. Chang Wenhao Zhan Owen Oertell Gokul Swamy Kianté Brantley Thorsten Joachims J. Andrew Bagnell Jason D. Lee Wen Sun

Published in: CoRR (2024)

Keyphrases