Missing Information, Unresponsive Authors, Experimental Flaws: The Impossibility of Assessing the Reproducibility of Previous Human Evaluations in NLP.

Anya Belz Craig Thomson Ehud Reiter Gavin Abercrombie Jose Maria Alonso-Moral Mohammad Arvan Jackie Chi Kit Cheung Mark Cieliebak Elizabeth Clark Kees van Deemter Tanvi Dinkar Ondrej Dusek Steffen Eger Qixiang Fang Albert Gatt Dimitra Gkatzia Javier González-Corbelle Dirk Hovy Manuela Hürlimann Takumi Ito John D. Kelleher Filip Klubicka Huiyuan Lai Chris van der Lee Emiel van Miltenburg Yiru Li Saad Mahamood Margot Mieskes Malvina Nissim Natalie Parde Ondrej Plátek Verena Rieser Pablo Mosteiro Romero Joel R. Tetreault Antonio Toral Xiaojun Wan Leo Wanner Lewis Watson Diyi Yang

Published in: CoRR (2023)

Keyphrases