Publication: Aligning Language Models with Offline Reinforcement Learning from Human Feedback.