Core Concepts
言語モデルは人間の三段論法推論バイアスを一部反映するが、一部のバイアスを克服し、人間よりも論理的な推論を行うことができる。
Abstract
本研究は、言語モデルと人間の三段論法推論能力を体系的に比較した。主な結果は以下の通り:
大規模な言語モデルは人間よりも正確な推論を行うが、完全な論理推論者とは言えない。モデルサイズが大きくなるほど正確性は向上するが、必ずしも一貫した傾向は見られない。
言語モデルのエラーにも系統性があり、人間が困難とする特定の三段論法に対して低精度を示す。しかし、人間が容易とする三段論法の中にも言語モデルが苦手とするものがある。
言語モデルは、変数の順序が論理的に無関係であるにもかかわらず、人間と同様にその順序に影響を受ける。この「図式効果」は、より大規模なモデルほど顕著である。
言語モデルは、人間が示す三段論法の誤謬(高い確信度と低い正確性)も示す。より大規模なモデルほどこの誤謬に陥りやすい。
認知心理学の「メンタルモデル理論」に基づく分析から、より大規模な言語モデルほど熟慮的な推論を行う傾向にあることが示された。
全体として、言語モデルは人間の推論バイアスを一部反映するが、一部のバイアスを克服し、人間よりも論理的な推論を行うことができる。しかし、完全な論理推論者とは言えず、系統的なエラーも存在する。
Stats
人間の三段論法推論の正答率は約50%である。
最大規模のPaLM 2モデルの三段論法推論の正答率は約75%である。
人間と同様に、言語モデルも変数の順序に影響を受ける。この「図式効果」の大きさは、より大規模なモデルほど顕著である。
Quotes
「言語モデルは人間の推論バイアスを一部反映するが、一部のバイアスを克服し、人間よりも論理的な推論を行うことができる。」
「しかし、完全な論理推論者とは言えず、系統的なエラーも存在する。」