RLHFPoison: Reward Poisoning Attack for Reinforcement Learning with Human Feedback in Large Language Models.

Published in: ACL (1) (2024)

Keyphrases