Conditioned Language Policy: A General Framework for Steerable Multi-Objective Finetuning.

Kaiwen Wang Rahul Kidambi Ryan Sullivan Alekh Agarwal Christoph Dann Andrea Michi Marco Gelmi Yunxuan Li Raghav Gupta Avinava Dubey Alexandre Ramé Johan Ferret Geoffrey Cideron Le Hou Hongkun Yu Amr Ahmed Aranyak Mehta Léonard Hussenot Olivier Bachem Edouard Leurent

Published in: CoRR (2024)