Belangrijkste concepten
LLMs exhibit varying levels of math reasoning abilities but lack robustness, especially when faced with question variations.
Samenvatting
大規模言語モデル(LLM)は、数学的推論のさまざまなベンチマークで印象的なパフォーマンスを達成しています。しかし、これらのモデルが数学的知識を理解し適用するか、単に数学的推論にショートカットを頼るかについて議論が増えています。特に、問題文がわずかに変更されると、LLMは誤った振る舞いを示すことがあります。このことから、GSM-PLUSデータセットを導入し、25のLLMと4つのプロンプティング手法で実験を行いました。その結果、LLMはGSM8Kの問題を正確に解決できる一方で、GSM-PLUSの変化に対処する際に誤りを犯すことが明らかとなりました。
Statistieken
25個のLLMおよび4つのプロンプティング手法で実験を行いました。
LLMs exhibit different levels of math reasoning abilities, but their performances are far from robust.
While LLMs can accurately solve the GSM8K questions, they struggle with answering the variations in GSM-PLUS.
The performance drop rate (PDR) metric is used to measure the relative performance decline on question variations compared to the performance on initial questions.
The percentage of accurately solved pairs (ASP) is measured where both the seed question and its variation are correctly answered by a specific LLM.