Weak-to-Strong Jailbreaking on Large Language Models.

Xuandong Zhao Xianjun Yang Tianyu Pang Chao Du Lei Li Yu-Xiang Wang William Yang Wang

Published in: CoRR (2024)

Keyphrases

language model
language modeling
probabilistic model
information retrieval
n gram
speech recognition
language modelling
document retrieval
retrieval model
query expansion
statistical language models
test collection
language models for information retrieval
ad hoc information retrieval
translation model
document ranking
word error rate
pseudo relevance feedback
query specific
smoothing methods
language model for information retrieval
okapi bm
passage retrieval
vector space model
text retrieval
query terms
naive bayes
hidden markov models
feature selection