本論文は、大規模言語モデル(LLM)の内部一貫性に着目し、その課題と解決策を包括的に論じている。
まず、内部一貫性の定式化を行い、応答層、デコーディング層、潜在層の3つの観点から一貫性を捉えることを示した。LLMの内部一貫性は、しばしば低く、その原因として、潜在的な推論の欠如、ホールシネーションの連鎖効果、確率的なパロット仮説などが指摘されている。
次に、内部一貫性を高めるための自己フィードバックフレームワークを提案した。このフレームワークは、自己評価と自己更新の2つのモジュールから構成される。自己評価では、応答、デコーディング、潜在状態の各層における一貫性シグナルを捉える。自己更新では、これらのシグナルを利用して、モデルの応答や内部パラメータを改善する。
具体的な手法として、6つの一貫性シグナル獲得手法と、7つの自己フィードバック手法(推論向上3手法、ホールシネーション軽減4手法)を整理した。これらの手法は、応答の一貫性、デコーディングの一貫性、潜在状態の一貫性の向上を目指している。
最後に、自己フィードバックが本当に機能するのかという疑問に対して、詳細な分析を行った。内部一貫性の向上は、LLMの信頼性向上に不可欠であり、今後の重要な研究課題であると結論付けている。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies