本研究は、大規模言語モデルの既知の事実に関するホールシネーションの現象に着目し、その内部推論プロセスを分析している。
まず、同じ知識トリプルに対して正解と誤りの出力が得られるデータセットを構築した。これにより、正解と誤りの出力の違いからホールシネーションが起こるパターンを明らかにできる。
次に、出力トークンの確率変化を層ごとに観察する手法を用いて分析を行った。正解出力では中間層から後半にかけて出力トークンの確率が急激に上昇するのに対し、誤りの出力ではそのような変化が見られないことが分かった。これは、正解知識の抽出に失敗したことが誤りの原因であることを示唆している。
さらに、注意機構とMLPモジュールの寄与度を分析したところ、MLPモジュールが誤りの出力に大きな影響を及ぼすことが明らかになった。これは、正解知識の抽出が不十分な状態でMLPモジュールが誤りの出力を生み出すことを示唆している。
最後に、出力トークンの確率変化パターンを特徴量として機械学習モデルを構築したところ、ホールシネーションを88%の精度で検出できることが分かった。これにより、出力トークンの動的な変化を観察することで、ホールシネーションを正確に予測できることが示された。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Che Jiang,Bi... at arxiv.org 04-01-2024
https://arxiv.org/pdf/2403.20009.pdfDeeper Inquiries