Defending Large Language Models Against Attacks With Residual Stream Activation Analysis.

Amelia Kawasaki Andrew Davis Houssam Abbas

Published in: CoRR (2024)

Keyphrases

language model
document retrieval
language modeling
probabilistic model
n gram
information retrieval
data streams
speech recognition
statistical language models
decision trees
bayesian networks
co occurrence
query expansion