AI Sandbagging: Language Models can Strategically Underperform on Evaluations.

Teun van der Weij Felix Hofstätter Ollie Jaffe Samuel F. Brown Francis Rhys Ward

Published in: CoRR (2024)