大型語言模型在基準測試中的表現受到答案選項的基準率差異的顯著影響。使用對比性提示可以部分緩解這一效應,但並不能完全消除。我們提出了一種新的基準測試變體 Nvr-X-MMLU,可以更好地區分基準率效應和任務表現。