本研究は、大規模言語モデル(LLM)の評価における基準分布の仮定の頑健性を検討した。主な結果は以下の通り:
4つの主要ベンチマーク(ANLI、HellaSwag、CommonsenseQA、CNN/Daily Mail)において、プロンプトのパフォーマンスベクトル間の相関が有意であることを示した。これは、ベンチマーク内のプロンプトが独立ではなく、相互に関連していることを意味する。
プロンプトの重み付けを変更すると、モデルの順位付けが大きく変化することを明らかにした。順位変化は最大5位に及ぶ。これは、ベンチマークの基準分布の仮定が評価結果に大きな影響を与えることを示している。
プロンプトの意味的類似性とモデルのパフォーマンス類似性の関係を分析した。CNN/Daily Mailでは意味的類似性が関係するが、ANLIでは主にモデルの共通の弱点が関係することが分かった。これは、ベンチマークの設計によって、モデルの類似したパフォーマンスの要因が異なることを示唆している。
本研究の結果は、LLMの比較評価を行う際に、ベンチマークの基準分布の仮定の影響を考慮する必要性を示唆している。提案手法は、評価結果の頑健性を確認するための一つのアプローチとなる。今後は、ベンチマークの偏りを低減する方法の検討が課題として挙げられる。
翻譯成其他語言
從原文內容
arxiv.org
深入探究