Emulated Disalignment: Safety Alignment for Large Language Models May Backfire!

Zhanhui Zhou Jie Liu Zhichen Dong Jiaheng Liu Chao Yang Wanli Ouyang Yu Qiao

Published in: CoRR (2024)

Keyphrases

language model
language modeling
n gram
document retrieval
probabilistic model
speech recognition
information retrieval
retrieval model
language modelling
vector space model
test collection
query expansion
smoothing methods
context sensitive
statistical language models
language models for information retrieval
language model for information retrieval
query terms
ad hoc information retrieval
term dependencies
pseudo relevance feedback
statistical language modeling
word error rate
document level
cross lingual
text retrieval
co occurrence
text classification