Paul Röttger

Publication Activity (10 Years)

Years Active: 2020-2024
Publications (10 Years): 41

Top Topics

Top Venues

Publications

Paul Röttger, Valentin Hofmann, Valentina Pyatkin, Musashi Hinck, Hannah Rose Kirk, Hinrich Schütze, Dirk Hovy
Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models. CoRR (2024)
Hannah Rose Kirk, Bertie Vidgen, Paul Röttger, Scott A. Hale
The benefits, risks and bounds of personalizing the alignment of large language models to individuals. Nat. Mac. Intell. 6 (4) (2024)
Xinpeng Wang, Bolei Ma, Chengzhi Hu, Leon Weber-Genzel, Paul Röttger, Frauke Kreuter, Dirk Hovy, Barbara Plank
"My Answer is C": First-Token Probabilities Do Not Match Text Answers in Instruction-Tuned Language Models. ACL (Findings) (2024)
Paul Röttger, Fabio Pernisi, Bertie Vidgen, Dirk Hovy
SafetyPrompts: a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety. CoRR (2024)
Carolin Holtermann, Paul Röttger, Timm Dill, Anne Lauscher
Evaluating the Elementary Multilingual Capabilities of Large Language Models with MultiQ. ACL (Findings) (2024)
Carolin Holtermann, Paul Röttger, Timm Dill, Anne Lauscher
Evaluating the Elementary Multilingual Capabilities of Large Language Models with MultiQ. CoRR (2024)
Janis Goldzycher, Paul Röttger, Gerold Schneider
Improving Adversarial Data Collection by Supporting Annotators: Lessons from GAHD, a German Hate Speech Dataset. NAACL-HLT (2024)
Xinpeng Wang, Bolei Ma, Chengzhi Hu, Leon Weber-Genzel, Paul Röttger, Frauke Kreuter, Dirk Hovy, Barbara Plank
"My Answer is C": First-Token Probabilities Do Not Match Text Answers in Instruction-Tuned Language Models. CoRR (2024)
Bertie Vidgen, Adarsh Agrawal, Ahmed M. Ahmed, Victor Akinwande, Namir Al-Nuaimi, Najla Alfaraj, Elie Alhajjar, Lora Aroyo, Trupti Bavalatti, Borhane Blili-Hamelin, Kurt D. Bollacker, Rishi Bomassani, Marisa Ferrara Boston, Siméon Campos, Kal Chakra, Canyu Chen, Cody Coleman, Zacharie Delpierre Coudert, Leon Derczynski, Debojyoti Dutta, Ian Eisenberg, James Ezick, Heather Frase, Brian Fuller, Ram Gandikota, Agasthya Gangavarapu, Ananya Gangavarapu, James Gealy, Rajat Ghosh, James Goel, Usman Gohar, Subhra S. Goswami, Scott A. Hale, Wiebke Hutiri, Joseph Marvin Imperial, Surgan Jandial, Nick Judd, Felix Juefei-Xu, Foutse Khomh, Bhavya Kailkhura, Hannah Rose Kirk, Kevin Klyman, Chris Knotz, Michael Kuchnik, Shachi H. Kumar, Chris Lengerich, Bo Li, Zeyi Liao, Eileen Peters Long, Victor Lu, Yifan Mai, Priyanka Mary Mammen, Kelvin Manyeki, Sean McGregor, Virendra Mehta, Shafee Mohammed, Emanuel Moss, Lama Nachman, Dinesh Jinenhally Naganna, Amin Nikanjam, Besmira Nushi, Luis Oala, Iftach Orr, Alicia Parrish, Cigdem Patlak, William Pietri, Forough Poursabzi-Sangdeh, Eleonora Presani, Fabrizio Puletti, Paul Röttger, Saurav Sahay, Tim Santos, Nino Scherrer, Alice Schoenauer Sebag, Patrick Schramowski, Abolfazl Shahbazi, Vin Sharma, Xudong Shen, Vamsi Sistla, Leonard Tang, Davide Testuggine, Vithursan Thangarasa, Elizabeth Anne Watkins, Rebecca Weiss, Chris Welty, Tyler Wilbers, Adina Williams, Carole-Jean Wu, Poonam Yadav, Xianjun Yang, Yi Zeng, Wenhui Zhang, Fedor Zhdanov, Jiacheng Zhu, Percy Liang, Peter Mattson, Joaquin Vanschoren
Introducing v0.5 of the AI Safety Benchmark from MLCommons. CoRR (2024)
Paul Röttger, Hannah Kirk, Bertie Vidgen, Giuseppe Attanasio, Federico Bianchi, Dirk Hovy
XSTest: A Test Suite for Identifying Exaggerated Safety Behaviours in Large Language Models. NAACL-HLT (2024)
Francisco Eiras, Aleksandar Petrov, Bertie Vidgen, Christian Schröder de Witt, Fabio Pizzati, Katherine Elkins, Supratik Mukhopadhyay, Adel Bibi, Botos Csaba, Fabro Steibel, Fazl Barez, Genevieve Smith, Gianluca Guadagni, Jon Chun, Jordi Cabot, Joseph Marvin Imperial, Juan A. Nolazco-Flores, Lori Landay, Matthew Jackson, Paul Röttger, Philip H. S. Torr, Trevor Darrell, Yong Suk Lee, Jakob N. Foerster
Near to Mid-term Risks and Opportunities of Open Source Generative AI. CoRR (2024)
Hannah Rose Kirk, Alexander Whitefield, Paul Röttger, Andrew M. Bean, Katerina Margatina, Juan Ciro, Rafael Mosquera, Max Bartolo, Adina Williams, He He, Bertie Vidgen, Scott A. Hale
The PRISM Alignment Project: What Participatory, Representative and Individualised Human Feedback Reveals About the Subjective and Multicultural Alignment of Large Language Models. CoRR (2024)
Kobi Hackenburg, Ben M. Tappin, Paul Röttger, Scott Hale, Jonathan Bright, Helen Z. Margetts
Evidence of a log scaling law for political persuasion with large language models. CoRR (2024)
Janis Goldzycher, Paul Röttger, Gerold Schneider
Improving Adversarial Data Collection by Supporting Annotators: Lessons from GAHD, a German Hate Speech Dataset. CoRR (2024)
Federico Bianchi, Mirac Suzgun, Giuseppe Attanasio, Paul Röttger, Dan Jurafsky, Tatsunori Hashimoto, James Zou
Safety-Tuned LLaMAs: Lessons From Improving the Safety of Large Language Models that Follow Instructions. ICLR (2024)
Xinpeng Wang, Chengzhi Hu, Bolei Ma, Paul Röttger, Barbara Plank
Look at the Text: Instruction-Tuned Language Models are More Robust Multiple Choice Selectors than You Think. CoRR (2024)
Manuel Tonneau, Diyi Liu, Samuel Fraiberger, Ralph Schroeder, Scott A. Hale, Paul Röttger
From Languages to Geographies: Towards Evaluating Cultural Bias in Hate Speech Datasets. CoRR (2024)
Donya Rooein, Paul Röttger, Anastassia Shaitarova, Dirk Hovy
Beyond Flesch-Kincaid: Prompt-based Metrics Improve Difficulty Classification of Educational Texts. CoRR (2024)
Hannah Rose Kirk, Bertie Vidgen, Paul Röttger, Scott A. Hale
Personalisation within bounds: A risk taxonomy and policy framework for the alignment of large language models with personalised feedback. CoRR (2023)
Matthias Orlikowski, Paul Röttger, Philipp Cimiano, Dirk Hovy
The Ecological Fallacy in Annotation: Modelling Human Label Variation goes beyond Sociodemographics. CoRR (2023)
Hannah Rose Kirk, Wenjie Yin, Bertie Vidgen, Paul Röttger
SemEval-2023 Task 10: Explainable Detection of Online Sexism. CoRR (2023)
Matthias Orlikowski, Paul Röttger, Philipp Cimiano, Dirk Hovy
The Ecological Fallacy in Annotation: Modeling Human Label Variation goes beyond Sociodemographics. ACL (2) (2023)
Hannah Kirk, Andrew M. Bean, Bertie Vidgen, Paul Röttger, Scott A. Hale
The Past, Present and Better Future of Feedback Learning in Large Language Models for Subjective Human Preferences and Values. EMNLP (2023)
Hannah Rose Kirk, Andrew M. Bean, Bertie Vidgen, Paul Röttger, Scott A. Hale
The Past, Present and Better Future of Feedback Learning in Large Language Models for Subjective Human Preferences and Values. CoRR (2023)
Hannah Kirk, Wenjie Yin, Bertie Vidgen, Paul Röttger
SemEval-2023 Task 10: Explainable Detection of Online Sexism. SemEval@ACL (2023)
Janosch Haber, Bertie Vidgen, Matthew Chapman, Vibhor Agarwal, Roy Ka-Wei Lee, Yong Keong Yap, Paul Röttger
Improving the Detection of Multilingual Online Attacks with Rich Social Media Data from Singapore. ACL (1) (2023)
Bertie Vidgen, Hannah Rose Kirk, Rebecca Qian, Nino Scherrer, Anand Kannappan, Scott A. Hale, Paul Röttger
SimpleSafetyTests: a Test Suite for Identifying Critical Safety Risks in Large Language Models. CoRR (2023)
Federico Bianchi, Mirac Suzgun, Giuseppe Attanasio, Paul Röttger, Dan Jurafsky, Tatsunori Hashimoto, James Zou
Safety-Tuned LLaMAs: Lessons From Improving the Safety of Large Language Models that Follow Instructions. CoRR (2023)
Hannah Rose Kirk, Bertie Vidgen, Paul Röttger, Scott A. Hale
The Empty Signifier Problem: Towards Clearer Paradigms for Operationalising "Alignment" in Large Language Models. CoRR (2023)
Paul Röttger, Hannah Rose Kirk, Bertie Vidgen, Giuseppe Attanasio, Federico Bianchi, Dirk Hovy
XSTest: A Test Suite for Identifying Exaggerated Safety Behaviours in Large Language Models. CoRR (2023)
Paul Röttger, Debora Nozza, Federico Bianchi, Dirk Hovy
Data-Efficient Strategies for Expanding Hate Speech Detection into Under-Resourced Languages. EMNLP (2022)
Hannah Kirk, Bertie Vidgen, Paul Röttger, Tristan Thrush, Scott A. Hale
Hatemoji: A Test Suite and Adversarially-Generated Dataset for Benchmarking and Detecting Emoji-Based Hate. NAACL-HLT (2022)
Paul Röttger, Bertie Vidgen, Dirk Hovy, Janet B. Pierrehumbert
Two Contrasting Data Annotation Paradigms for Subjective NLP Tasks. NAACL-HLT (2022)
Paul Röttger, Debora Nozza, Federico Bianchi, Dirk Hovy
Data-Efficient Strategies for Expanding Hate Speech Detection into Under-Resourced Languages. CoRR (2022)
Paul Röttger, Haitham Seelawi, Debora Nozza, Zeerak Talat, Bertie Vidgen
Multilingual HateCheck: Functional Tests for Multilingual Hate Speech Detection Models. CoRR (2022)
Paul Röttger, Janet B. Pierrehumbert
Temporal Adaptation of BERT and Performance on Downstream Document Classification: Insights from Social Media. EMNLP (Findings) (2021)
Paul Röttger, Bertie Vidgen, Dong Nguyen, Zeerak Waseem, Helen Z. Margetts, Janet B. Pierrehumbert
HateCheck: Functional Tests for Hate Speech Detection Models. ACL/IJCNLP (1) (2021)
Hannah Rose Kirk, Bertram Vidgen, Paul Röttger, Tristan Thrush, Scott A. Hale
Hatemoji: A Test Suite and Adversarially-Generated Dataset for Benchmarking and Detecting Emoji-based Hate. CoRR (2021)
Paul Röttger, Bertie Vidgen, Dirk Hovy, Janet B. Pierrehumbert
Two Contrasting Data Annotation Paradigms for Subjective NLP Tasks. CoRR (2021)
Paul Röttger, Janet B. Pierrehumbert
Temporal Adaptation of BERT and Performance on Downstream Document Classification: Insights from Social Media. CoRR (2021)
Paul Röttger, Bertram Vidgen, Dong Nguyen, Zeerak Waseem, Helen Z. Margetts, Janet B. Pierrehumbert
HateCheck: Functional Tests for Hate Speech Detection Models. CoRR (2020)