Frontier Language Models are not Robust to Adversarial Arithmetic, or "What do I need to say so you agree 2+2=5?

C. Daniel Freeman Laura Culp Aaron Parisi Maxwell L. Bileschi Gamaleldin F. Elsayed Alex Rizkowsky Isabelle Simpson Alex Alemi Azade Nova Ben Adlam Bernd Bohnet Gaurav Mishra Hanie Sedghi Igor Mordatch Izzeddin Gur Jaehoon Lee John D. Co-Reyes Jeffrey Pennington Kelvin Xu Kevin Swersky Kshiteej Mahajan Lechao Xiao Rosanne Liu Simon Kornblith Noah Constant Peter J. Liu Roman Novak Yundi Qian Noah Fiedel Jascha Sohl-Dickstein

Published in: CoRR (2023)