When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards.

Norah Alzahrani Hisham Abdullah Alyahya Yazeed Alnumay Sultan Alrashed Shaykhah Alsubaie Yousef Almushayqih Faisal Mirza Nouf Alotaibi Nora Al-Twairesh Areeb Alowisheq M. Saiful Bari Haidar Khan

Published in: ACL (1) (2024)