Leftover Lunch: Advantage-based Offline Reinforcement Learning for Language Models.

Published in: ICLR (2024)

Keyphrases