Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing.

Wei Zhao Zhe Li Yige Li Ye Zhang Jun Sun

Published in: CoRR (2024)

Keyphrases

language model
language modeling
speech recognition
n gram
probabilistic model
language modelling
statistical language models
retrieval model
document retrieval
ad hoc information retrieval
query expansion
information retrieval
relevance model
smoothing methods
context sensitive
test collection
document ranking
query terms
okapi bm
cross lingual
query processing