Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models.

Carson Denison Monte MacDiarmid Fazl Barez David Duvenaud Shauna Kravec Samuel Marks Nicholas Schiefer Ryan Soklaski Alex Tamkin Jared Kaplan Buck Shlegeris Samuel R. Bowman Ethan Perez Evan Hubinger

Published in: CoRR (2024)