Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs.

Yuxia Wang Haonan Li Xudong Han Preslav Nakov Timothy Baldwin

Published in: CoRR (2023)

Keyphrases

benchmark datasets
database
expert systems
correct answers
databases
genetic algorithm
artificial intelligence
feature selection
object detection
anomaly detection
training dataset
question answering systems
answering questions