Safe RLHF: Safe Reinforcement Learning from Human Feedback.

Published in: ICLR (2024)

Keyphrases