Lessons from the Trenches on Reproducible Evaluation of Language Models.

Stella Biderman Hailey Schoelkopf Lintang Sutawika Leo Gao Jonathan Tow Baber Abbasi Alham Fikri Aji Pawan Sasanka Ammanamanchi Sidney Black Jordan Clive Anthony DiPofi Julen Etxaniz Benjamin Fattori Jessica Zosa Forde Charles Foster Jeffrey Hsu Mimansa Jaiswal Wilson Y. Lee Haonan Li Charles Lovering Niklas Muennighoff Ellie Pavlick Jason Phang Aviya Skowron Samson Tan Xiangru Tang Kevin A. Wang Genta Indra Winata François Yvon Andy Zou

Published in: CoRR (2024)