核心概念
大規模言語モデルにおいて、前提の順序は推論タスクのパフォーマンスに重要な影響を与える。
摘要
大規模言語モデル(LLMs)は様々なドメインで印象的な推論パフォーマンスを達成してきた。しかし、推論タスクのドメインでは、LLMsは前提の順序に驚くほど弱いことが明らかになった。具体的には、LLMsは中間推論段階で必要な文脈と一致するように前提の順序を整えることで最高のパフォーマンスを達成することがわかった。例えば、演繹的推論タスクでは、プロンプト内の真実証明と同じ順序で前提を提示することがモデルの精度を劇的に向上させることが示された。
LLMsは読み進め方や理由付けバイアスから来る傾向からも、前提順序が重要であることが示唆されている。これらの研究結果は、LLMsが人間同様に前提順序への傾向性を持っていることを示しており、この点で人間よりも影響を受けやすいことが示唆されている。
統計資料
LLMsは30%以上の性能低下を引き起こす可能性あり。
R-GSMベンチマークでは数学問題解決時にも顕著な精度低下あり。
引述
"Large language models can be easily distracted by irrelevant context." - Shi et al., 2023