Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks.

Chen Xiong Xiangyu Qi Pin-Yu Chen Tsung-Yi Ho

Published in: CoRR (2024)

Keyphrases

digital image watermarking
watermarking technique
ddos attacks
semi fragile watermarking
information systems
countermeasures
data sets
input image
image patches
security mechanisms
defense mechanisms