Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models.

Xianjun Yang Xiao Wang Qi Zhang Linda R. Petzold William Yang Wang Xun Zhao Dahua Lin

Published in: CoRR (2023)