Core Concepts
ベンチマークの基準分布の仮定が大規模言語モデルの評価に与える影響を明らかにした。ベンチマーク内のプロンプトの相関関係が有意であり、プロンプトの重み付けを変更すると、モデルの順位付けが大きく変化することを示した。また、モデルの類似したパフォーマンスはプロンプトの意味的類似性だけでなく、モデルの共通の弱点にも起因することを明らかにした。
Abstract
本研究は、大規模言語モデル(LLM)の評価における基準分布の仮定の頑健性を検討した。主な結果は以下の通り:
4つの主要ベンチマーク(ANLI、HellaSwag、CommonsenseQA、CNN/Daily Mail)において、プロンプトのパフォーマンスベクトル間の相関が有意であることを示した。これは、ベンチマーク内のプロンプトが独立ではなく、相互に関連していることを意味する。
プロンプトの重み付けを変更すると、モデルの順位付けが大きく変化することを明らかにした。順位変化は最大5位に及ぶ。これは、ベンチマークの基準分布の仮定が評価結果に大きな影響を与えることを示している。
プロンプトの意味的類似性とモデルのパフォーマンス類似性の関係を分析した。CNN/Daily Mailでは意味的類似性が関係するが、ANLIでは主にモデルの共通の弱点が関係することが分かった。これは、ベンチマークの設計によって、モデルの類似したパフォーマンスの要因が異なることを示唆している。
本研究の結果は、LLMの比較評価を行う際に、ベンチマークの基準分布の仮定の影響を考慮する必要性を示唆している。提案手法は、評価結果の頑健性を確認するための一つのアプローチとなる。今後は、ベンチマークの偏りを低減する方法の検討が課題として挙げられる。
Stats
大規模言語モデルの評価結果は、ベンチマーク内のプロンプトの相関関係によって最大10%変化する可能性がある。
モデルの順位付けは、プロンプトの重み付けによって最大5位変化する可能性がある。
CNN/Daily Mailでは、プロンプトの意味的類似性とモデルのパフォーマンス類似性に有意な関係がある。
ANLIでは、プロンプトの意味的類似性よりも、モデルの共通の弱点がパフォーマンス類似性の主な要因となっている。
Quotes
"ベンチマークの基準分布の仮定が評価結果に大きな影響を与えることを示している。"
"ベンチマークの設計によって、モデルの類似したパフォーマンスの要因が異なることを示唆している。"