核心概念
大型語言模型在基準測試中的表現受到答案選項的基準率差異的顯著影響。使用對比性提示可以部分緩解這一效應,但並不能完全消除。我們提出了一種新的基準測試變體 Nvr-X-MMLU,可以更好地區分基準率效應和任務表現。
摘要
本文探討了大型語言模型在多項選擇題基準測試中表現受到答案選項基準率差異的影響。作者首先量化了 MMLU 數據集中答案選項的基準率分布,發現存在顯著差異,並且這種差異會影響模型的準確率表現。作者嘗試使用對比性提示來緩解這一效應,但發現仍然無法完全消除。
為了更好地區分基準率效應和任務表現,作者提出了一種新的基準測試變體 Nvr-X-MMLU。在這個變體中,正確答案選項被隨機重新分配到不同的標籤,使得基準率效應不再影響測試結果。作者發現,在 Nvr-X-MMLU 上,大型語言模型的表現普遍較差,表明標準 MMLU 可能過於容易,無法真實反映模型的理解能力。
總的來說,本文揭示了大型語言模型在基準測試中可能存在的策略性偏好,並提出了一種新的基準測試方法來更好地評估模型的實際理解能力。這對於設計更有意義的基準測試具有重要意義。
統計資料
答案選項 A 的基準率平均值為 0.231,標準差為 0.042。
答案選項 B 的基準率平均值為 0.245,標準差為 0.042。
答案選項 C 的基準率平均值為 0.254,標準差為 0.044。
答案選項 D 的基準率平均值為 0.270,標準差為 0.078。
引述
"使用對比性提示可以部分緩解這一效應,但並不能完全消除。"
"Nvr-X-MMLU 上,大型語言模型的表現普遍較差,表明標準 MMLU 可能過於容易,無法真實反映模型的理解能力。"