Core Concepts
多くの大規模言語モデルが小学校算術の基準データセットに過剰適合しており、実際の推論能力よりも高い性能を示している可能性がある。
Abstract
この論文は、大規模言語モデルの小学校算術に関する性能を慎重に検討しています。
まず、著者らは新しいデータセットGSM1kを作成しました。GSM1kは、既存の基準データセットGSM8kと同様の難易度分布を持つ1,250の小学校算術問題で構成されています。GSM1kは人手で作成されており、言語モデルを使用していないため、データ汚染の懸念がありません。
次に、著者らは主要な大規模言語モデルをGSM1kで評価しました。その結果、多くのモデルがGSM8kに比べてGSM1kで13%ほど性能が低下することが分かりました。特に、MistralやPhiといったモデルファミリーでは、ほとんどすべてのモデルサイズで一貫して過剰適合の傾向が見られました。一方、最先端のモデルでは過剰適合の兆候はほとんど見られませんでした。
さらに分析を行った結果、モデルがGSM8kの問題を生成する確率と、GSM8kとGSM1kの性能差には正の相関があることが分かりました。これは、多くのモデルがGSM8kの問題を部分的に記憶していることを示唆しています。
ただし、過剰適合が見られるモデルでも、GSM1kの問題の68%以上を正しく解くことができました。これは、これらのモデルにも一定の推論能力があることを示しています。
最後に、著者らは今後の評価のために、GSM1kデータセットを一定の条件を満たした時点で公開することを約束しています。
Stats
最も過剰適合したモデルはGSM8kとGSM1kで13%の性能差がある
モデルがGSM8kの問題を生成する確率とGSM8kとGSM1kの性能差には正の相関がある(Spearman's r^2 = 0.32)
過剰適合が見られるモデルでも、GSM1kの問題の68%以上を正しく解くことができる
Quotes
"多くのモデルが小学校算術の基準データセットに過剰適合しており、実際の推論能力よりも高い性能を示している可能性がある。"
"モデルがGSM8kの問題を生成する確率と、GSM8kとGSM1kの性能差には正の相関がある。これは、多くのモデルがGSM8kの問題を部分的に記憶していることを示唆している。"
"過剰適合が見られるモデルでも、GSM1kの問題の68%以上を正しく解くことができた。これは、これらのモデルにも一定の推論能力があることを示している。"