PERL: Parameter Efficient Reinforcement Learning from Human Feedback.

Hakim Sidahmed Samrat Phatale Alex Hutcheson Zhuonan Lin Zhang Chen Zac Yu Jarvis Jin Roman Komarytsia Christiane Ahlheim Yonghao Zhu Simral Chaudhary Bowen Li Saravanan Ganesh Bill Byrne Jessica Hoffmann Hassan Mansoor Wei Li Abhinav Rastogi Lucas Dixon

Published in: CoRR (2024)

Keyphrases