Core Concepts
大規模言語モデルは、数学問題に内在する非合理性を検出することが困難であり、それに起因する誤った出力を生み出す傾向がある。
Abstract
本研究では、大規模言語モデルの数学問題に対する振る舞いを調査しています。
まず、「非合理的な数学問題(UMP)」ベンチマークを構築しました。これは、合理的な問題と非合理的な問題から成り、非合理的な問題にはエラーの種類と説明が付与されています。
分析の結果、大規模言語モデルには本来、非合理性を検出する能力があることが分かりました。しかし、直接的に非合理的な問題に直面すると、その非合理性を自動的に見逃してしまう傾向にあります。
そこで、モデルの自己評価と批判的思考能力を刺激する「批判的計算と結論(CCC)」というプロンプトテンプレートを提案しました。これにより、モデルは合理的な問題に対しては直接解答し、非合理的な問題に対しては、その非合理性を特定し修正することができるようになります。
Stats
合理的な問題100問と非合理的な問題100問から成る「非合理的な数学問題(UMP)」ベンチマークを構築した。
非合理的な問題には5つのカテゴリ(未定義変数、論理的に不可能なシナリオ、誤った前提、単位の誤解釈、矛盾する条件)が設定されている。
Quotes
「大規模言語モデルは、数学問題に内在する非合理性を検出することが困難であり、それに起因する誤った出力を生み出す傾向がある。」
「CCC プロンプトテンプレートを用いることで、モデルは合理的な問題に対しては直接解答し、非合理的な問題に対しては、その非合理性を特定し修正することができるようになる。」