Backdoor Activation Attack: Attack Large Language Models using Activation Steering for Safety-Alignment.

Haoran Wang Kai Shu

Published in: CoRR (2023)

Keyphrases

language model
language modeling
document retrieval
query expansion
language modelling
probabilistic model
n gram
speech recognition
test collection
retrieval model
information retrieval
statistical language models
context sensitive
document ranking
pseudo relevance feedback
smoothing methods
document level
document length
language models for information retrieval