Robust Safety Classifier for Large Language Models: Adversarial Prompt Shield.

Jinhwa Kim Ali Derakhshan Ian G. Harris

Published in: CoRR (2023)

Keyphrases

language model
language modeling
n gram
speech recognition
document retrieval
information retrieval
label noise
probabilistic model
retrieval model
statistical language models
language modelling
query expansion
test collection
smoothing methods
query terms
language models for information retrieval
language model for information retrieval
translation model
context sensitive
error rate
training data
decision trees
vector space model
pseudo relevance feedback
term dependencies
class labels
information retrieval systems
co occurrence
ad hoc information retrieval