Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes.

Xiaomeng Hu Pin-Yu Chen Tsung-Yi Ho

Published in: CoRR (2024)

Keyphrases

language model
language modeling
probabilistic model
n gram
speech recognition
language modelling
query expansion
document retrieval
statistical language models
information retrieval
context sensitive
smoothing methods
retrieval model
language models for information retrieval
vector space model
test collection
document ranking
machine learning
relevance model
term dependencies
retrieval systems
ad hoc information retrieval
statistical language modeling