核心概念
大規模言語モデルの枝刈りは、幻覚のリスクを軽減しながらも、要約の品質を維持できる可能性がある。
要約
大規模言語モデルにおける枝刈りと幻覚の関係性
本論文は、抽象的な要約タスクにおいて、枝刈りされた大規模言語モデル(LLM)の幻覚発生リスクを調査している。LLMは高い性能を示す一方で、その巨大なサイズと幻覚発生の傾向が課題として挙げられる。枝刈りは、モデルサイズを縮小し、効率的なスパース推論を可能にする技術である。先行研究では、枝刈りモデルは元のモデルと同等のタスク性能を維持できることが示されているが、抽象的な要約における幻覚への影響については未解明であった。
本研究では、5つの要約データセット、2つの最先端の枝刈り手法、5つのLLMを用いて、広範な実験的調査を行った。その結果、驚くべきことに、枝刈りされたLLMは、元のモデルと比較して幻覚の発生率が低いことが明らかになった。この現象を理解するために、様々なスパースレベルが幻覚パターンに与える影響をさらに調査した。その結果、テストした枝刈り手法に関わらず、スパース性が高まるにつれて幻覚のリスクが減少することが示された。さらに、枝刈りによってモデルは生成時にソースドキュメントへの依存度が高まり、その結果、ソースドキュメントと語彙的により類似した要約が生成されることが示唆された。
統計
SparseGPTを用いて枝刈りされたモデルは、100回の比較のうち19回で元のモデルよりも有意に高いスコア(すべての指標において)を記録し、11回で有意に低いスコアを記録した。
Wandaを用いて枝刈りされたモデルは、100回の比較のうち20回で有意に高いスコアを記録し、26回で有意に低いスコアを記録した。
2:4のスパースパターンを持つセミストラクチャード枝刈りは、50%の非構造化枝刈りと比較して、59/65ケース(SparseGPT)と55/65ケース(Wanda)で低いHRRを記録した。
SummaCベースの指標とHaRiM+の間には、中程度の相関関係が見られた(HaRiM+とSummaCZS間で0.45、HaRiM+とSummaCConv間で0.53)。
引用
"Surprisingly, our results show that pruned models are less prevalent in hallucinations compared to the original LLM."
"Our analysis shows that hallucination risk decreases as sparsity increases, regardless of the pruning methods tested."
"Furthermore, our results suggest that pruning encourages the model to rely more on the source document during generation, resulting in summaries that are lexically more similar to the source document."