本稿は、大規模言語モデル(LLM)の長文における数学的推論能力を評価するための自動ベンチマークであるMATHHAYを提案する研究論文である。近年、LLMは長文処理能力において著しい進歩を遂げているが、現実世界の問題解決に不可欠な長文における数学的推論能力を評価するベンチマークは不足している。MATHHAYは、この問題に対処するために開発された。
従来の長文ベンチマーク(LongBench、Needle in a Haystack、BABILongなど)は、情報検索や要約に焦点を当てており、複雑な数学的推論を評価するには不十分であった。MATHHAYは、複数の関連文書から情報を抽出し、多段階の計算を含む複雑な数学的推論問題をLLMに課すことで、この課題を克服している。
MATHHAYは、文書収集、問題生成、品質管理、haystack構築の4つの段階を経て自動的に構築される。
著者らは、MATHHAYを用いて8つの最先端LLM(GPT-4o、GPT-4o-Mini、o1-preview、o1-mini、Claude-3.5-Sonnet、Gemini-1.5-Pro-002、Qwen-2.5-7B-Instruct、LLaMA-3.1-8B-Instruct)の長文推論能力を評価した。その結果、最良の性能を示したGemini-1.5-Pro-002でも、128Kトークンの入力長で51.26%の正解率にとどまり、MATHHAYベンチマークにおける改善の余地が大きいことが示された。
MATHHAYは、LLMの長文における数学的推論能力を評価するための、より現実的で挑戦的なベンチマークである。実験結果から、現在のLLMはノイズの多い長文における数学的推論に課題を抱えていることが明らかになり、今後のLLM開発において、より高度な推論能力の向上が求められる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問