SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors.

Tinghao Xie Xiangyu Qi Yi Zeng Yangsibo Huang Udari Madhushani Sehwag Kaixuan Huang Luxi He Boyi Wei Dacheng Li Ying Sheng Ruoxi Jia Bo Li Kai Li Danqi Chen Peter Henderson Prateek Mittal

Published in: CoRR (2024)