JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models.

Patrick Chao Edoardo Debenedetti Alexander Robey Maksym Andriushchenko Francesco Croce Vikash Sehwag Edgar Dobriban Nicolas Flammarion George J. Pappas Florian Tramèr Hamed Hassani Eric Wong

Published in: CoRR (2024)

Keyphrases

language model
language modeling
n gram
probabilistic model
speech recognition
information retrieval
document retrieval
retrieval model
language modelling
query expansion
statistical language models
test collection
context sensitive
ad hoc information retrieval
vector space model
smoothing methods
relevance model
document ranking
query terms
language models for information retrieval
language model for information retrieval
machine learning
term dependencies
word error rate
co occurrence
bayesian networks