Defending LLMs against Jailbreaking Attacks via Backtranslation.

Yihan Wang Zhouxing Shi Andrew Bai Cho-Jui Hsieh

Published in: CoRR (2024)

Keyphrases

ddos attacks
countermeasures
watermarking scheme
computer security
dos attacks
security problems
terrorist attacks
security risks
denial of service attacks
malicious attacks
malicious users
real time
databases
neural network
network traffic
java card