WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models.

Liwei Jiang Kavel Rao Seungju Han Allyson Ettinger Faeze Brahman Sachin Kumar Niloofar Mireshghallah Ximing Lu Maarten Sap Yejin Choi Nouha Dziri

Published in: CoRR (2024)