Offline Reinforcement Learning from Human Feedback in Real-World Sequence-to-Sequence Tasks.

Published in: SPNLP@ACL-IJCNLP (2021)

Keyphrases