When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards.

Norah Alzahrani Hisham Abdullah Alyahya Yazeed Alnumay Sultan Alrashed Shaykhah Alsubaie Yusef Almushaykeh Faisal Mirza Nouf Alotaibi Nora Al-Twairesh Areeb Alowisheq M. Saiful Bari Haidar Khan

Published in: CoRR (2024)