Stop Regressing: Training Value Functions via Classification for Scalable Deep RL.

Jesse Farebrother Jordi Orbay Quan Vuong Adrien Ali Taïga Yevgen Chebotar Ted Xiao Alex Irpan Sergey Levine Pablo Samuel Castro Aleksandra Faust Aviral Kumar Rishabh Agarwal

Published in: CoRR (2024)