本研究は、大規模言語モデル(LLM)の推論能力を評価するために、認知科学の古典的な演繹的推論課題であるワソン課題を用いて実験を行った。
実験では、LLMが以下の3種類の問題に対してどのように対処するかを調べた:
結果として、LLMは社会的ルールの問題に対してはある程度の性能を示したが、その程度は人間の成績ほど高くはなかった。また、問題の提示形式によっても性能が変化し、人間の推論パターンとは一致しない予期せぬ相互作用が見られた。
全体として、LLMの推論能力は人間の推論とは異なる独自のバイアスを持っていることが示された。問題の内容や提示形式に応じて、LLMの推論パフォーマンスは大きく変動し、人間の振る舞いを予測することは難しい。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Spencer M. S... at arxiv.org 04-16-2024
https://arxiv.org/pdf/2309.05452.pdfDeeper Inquiries