Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM.

Bochuan Cao Yuanpu Cao Lu Lin Jinghui Chen

Published in: ACL (1) (2024)

Keyphrases

ddos attacks
countermeasures
sequence alignment
image alignment
traffic analysis
chosen plaintext
data sets
watermarking algorithm
watermarking scheme
security vulnerabilities
attack detection
dos attacks
multiple sequence alignment
cryptographic protocols
word alignment
malicious attacks
denial of service attacks
image sequences
malicious users
watermarking method
similarity measure
pairwise
security mechanisms
digital images
lightweight