Kernekoncepter
最新の言語モデルは従来の数学的推論ベンチマークではもはや十分に評価できないレベルに達しており、より難易度の高いオリンピックレベルの数学問題に特化したベンチマークと評価手法が必要とされている。
論文情報
Bofei Gao, Feifan Song, Zhe Yang, Zefan Cai, Yibo Miao, Qingxiu Dong, Lei Li, Chenghao Ma, Liang Chen, Runxin Xu, Zhengyang Tang, Benyou Wang, Daoguang Zan, Shanghaoran Quan, Ge Zhang, Lei Sha, Yichang Zhang, Xuancheng Ren, Tianyu Liu∗, Baobao Chang†. (2024). Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models. arXiv preprint arXiv:2410.07985v1.
研究目的
本研究は、既存の数学的推論ベンチマークでは最新の言語モデルの能力を十分に評価できないという問題意識から、オリンピックレベルの数学問題に特化したベンチマーク「Omni-MATH」を提案し、その有効性を検証することを目的とする。
方法
世界中の数学コンテストから収集した4,428問のオリンピックレベルの数学問題を、難易度、分野、出題形式に基づいて体系的に分類し、データセット「Omni-MATH」を作成した。
問題の難易度は、AoPSウェブサイトの評価とGPT-4oを用いた評価を組み合わせて10段階で設定した。
分野は、代数、幾何、微積分など33のサブドメインに分類した。
評価には、GPT-4oを用いた解答の正誤判定と、オープンソースの評価モデル「Omni-Judge」を用いた解答の検証を行った。
結果
Omni-MATHを用いた評価実験の結果、OpenAI o1-miniを含む最新の大規模言語モデルでも、オリンピックレベルの数学問題に対する正解率は60.54%にとどまり、依然として高い壁が存在することが明らかになった。
分野別に見ると、モデルは代数や微積分などの分野では比較的高い正答率を示した一方で、離散数学などの分野では苦戦する傾向が見られた。
また、テスト時のスケーリング手法として一般的に用いられるBest-of-Nは、オリンピックレベルの数学問題に対しては効果が限定的であることが示唆された。
結論
本研究では、大規模言語モデルの数学的推論能力を評価するための新たなベンチマークとしてOmni-MATHを提案し、その有効性を示した。Omni-MATHは、今後の大規模言語モデルの開発において、より高度な数学的推論能力の実現を目指すための重要なツールとなることが期待される。
意義
Omni-MATHは、大規模言語モデルの数学的推論能力を評価するための新たな基準を提示するものであり、今後の大規模言語モデルの開発に大きく貢献するものである。特に、従来のベンチマークでは評価が困難であった高度な数学的推論能力を測定することが可能になるため、大規模言語モデルの更なる発展を促進する効果が期待される。
限界と今後の研究
Omni-MATHは、現時点ではテキストベースの数学問題のみに対応しており、図形やグラフを含む問題への対応は今後の課題である。また、評価手法についても、より人間の評価に近い結果を得られるように、さらなる改善が必要である。
Statistik
OpenAI o1-miniは、テスト時の性能向上技術を用いることで、わずか60.54%の正解率を達成した。
OpenAI o1-previewは、52.55%の正解率を達成した。
SOTAバニラモデルは36.2%の正解率を獲得し、上位2つのモデルとの間には大きな差がある。
Qwen2.5-MATH-72b-instructは、データ漏洩の度合いが最も高く、31サンプルで5グラムが正確に予測された。