核心概念
大規模言語モデルには、従来の認知科学の文献から知られる古典的な演繹的推論問題を解決する限定的な能力しかない。モデルの性能は問題の提示形式や内容によって予期せぬ形で変化し、人間の推論パターンとは一致しない。
摘要
本研究は、大規模言語モデル(LLM)の推論能力を評価するために、認知科学の古典的な演繹的推論課題であるワソン課題を用いて実験を行った。
実験では、LLMが以下の3種類の問題に対してどのように対処するかを調べた:
- 現実的な内容の問題(社会的ルールと非社会的ルール)
- 入れ替えた問題(アンテセデントと結論が入れ替わっている)
- 任意の内容の問題
結果として、LLMは社会的ルールの問題に対してはある程度の性能を示したが、その程度は人間の成績ほど高くはなかった。また、問題の提示形式によっても性能が変化し、人間の推論パターンとは一致しない予期せぬ相互作用が見られた。
全体として、LLMの推論能力は人間の推論とは異なる独自のバイアスを持っていることが示された。問題の内容や提示形式に応じて、LLMの推論パフォーマンスは大きく変動し、人間の振る舞いを予測することは難しい。
统计
LLMは社会的ルールの問題に対して約30%の正解率を示した。一方、人間は同様の問題に対して約70%の正解率を示す。
問題の提示形式によって、LLMの正解率は大きく変動した。特に、現実的な問題と入れ替えた問題の間で大きな差が見られた。
引用
"LLMsは、従来の認知科学の文献から知られる古典的な演繹的推論問題を解決する限定的な能力しかない。"
"LLMの推論能力は問題の内容や提示形式によって予期せぬ形で変化し、人間の推論パターンとは一致しない。"