本研究は、大規模言語モデル(LLM)の算術的推論能力を探査するものである。具体的には、LLMに対して、ある主体の構成要素の数(例えば、鳥の足の数、三輪車の車輪の数)を比較する問題を与え、その答えの正確性を評価した。
実験の結果、以下のことが明らかになった:
LLMは、明示的に与えられた数値事実については比較的良好な成績を収めるが、それらの数値事実から導かれる算術的な関係を推論することは非常に困難である。
LLMの答えは不安定で、プロンプトの表現に大きく依存する。また、概念の絡み合いや偏りが見られる。
特に、ゼロの値を持つ事実について、LLMは大きな困難を示す。これは、明示的にゼロを述べるデータが少ないことによる。
LLMは統計的な推測しかできず、真の推論能力はない。正解を生成することと、推論能力があることは同じではない。
本研究は、LLMの能力と限界を明らかにし、より信頼性の高いAIシステムを構築するためには、統計的手法だけでなく、記号的推論を組み合わせる必要があることを示唆している。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by D. Panas,S. ... a las arxiv.org 05-01-2024
https://arxiv.org/pdf/2404.19432.pdfConsultas más profundas