本研究では、大規模言語モデルの数学問題に対する振る舞いを調査しています。
まず、「非合理的な数学問題(UMP)」ベンチマークを構築しました。これは、合理的な問題と非合理的な問題から成り、非合理的な問題にはエラーの種類と説明が付与されています。
分析の結果、大規模言語モデルには本来、非合理性を検出する能力があることが分かりました。しかし、直接的に非合理的な問題に直面すると、その非合理性を自動的に見逃してしまう傾向にあります。
そこで、モデルの自己評価と批判的思考能力を刺激する「批判的計算と結論(CCC)」というプロンプトテンプレートを提案しました。これにより、モデルは合理的な問題に対しては直接解答し、非合理的な問題に対しては、その非合理性を特定し修正することができるようになります。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Jingyuan Ma,... om arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.19346.pdfDiepere vragen