本研究は、大規模言語モデル(LLM)の数学問題解答能力を調査するために、2段階のアプローチを採用した。
まず、数学問題回答ベンチマークで優れた性能を示したLLMを使用して、数学スタックエクスチェンジ(MSE)の78の問題に対する回答を生成した。次に、最高の性能を示したGPT-4について、その回答の質と正確性を手動評価によって分析した。
評価の結果、GPT-4は既存のLLMの中で最も良好な性能(nDCG 0.48、P@10 0.37)を示し、ArqMATH3 Task1の現行最良アプローチを上回った。一方で、ケーススタディの分析から、GPT-4は特定の問題に対して適切な回答を生成できるものの、複雑な数学概念の相互作用を要する問題には正確に答えられないことが明らかになった。
本研究は、LLMの数学的推論能力の限界を明らかにし、今後の研究と進歩に向けた道筋を示している。LLMの数学問題解決能力の向上には、数学的知識の深化と、数学的推論プロセスの理解が不可欠であることが示唆された。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Ankit Satput... a las arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00344.pdfConsultas más profundas