本研究では、大規模言語モデルの数学問題に対する振る舞いを調査しています。
まず、「非合理的な数学問題(UMP)」ベンチマークを構築しました。これは、合理的な問題と非合理的な問題から成り、非合理的な問題にはエラーの種類と説明が付与されています。
分析の結果、大規模言語モデルには本来、非合理性を検出する能力があることが分かりました。しかし、直接的に非合理的な問題に直面すると、その非合理性を自動的に見逃してしまう傾向にあります。
そこで、モデルの自己評価と批判的思考能力を刺激する「批判的計算と結論(CCC)」というプロンプトテンプレートを提案しました。これにより、モデルは合理的な問題に対しては直接解答し、非合理的な問題に対しては、その非合理性を特定し修正することができるようになります。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問