Baseline Defenses for Adversarial Attacks Against Aligned Language Models.

Neel Jain Avi Schwarzschild Yuxin Wen Gowthami Somepalli John Kirchenbauer Ping-yeh Chiang Micah Goldblum Aniruddha Saha Jonas Geiping Tom Goldstein

Published in: CoRR (2023)

Keyphrases