核心概念
大規模言語モデル(LLM)の解釈可能性を高めるために、AttriBoTは、Leave-One-Out(LOO)エラーを効率的に近似することで、LLMの応答に対する各コンテキストスパンの影響を定量化する新しい手法を提供します。
要約
AttriBoT: Leave-One-Outコンテキストアトリビューションを効率的に近似するためのテクニック集
本稿は、大規模言語モデル(LLM)の解釈可能性を高めることを目的とした、AttriBoTと呼ばれる新しいコンテキストアトリビューション手法を提案する研究論文です。
LLMの応答に対して、入力コンテキスト内のどの部分が影響を与えたかを定量化することは、モデルの解釈可能性にとって重要です。しかし、従来のLeave-One-Out(LOO)エラーを用いた手法は、計算コストが高く、大規模なモデルやコンテキストには適用が困難でした。本研究では、LOOエラーを効率的に近似することで、この問題を解決することを目指しています。
AttriBoTは、以下の3つの主要なテクニックを組み合わせて、LOOエラーの効率的な近似を実現しています。
キーバリューキャッシング: Transformerモデルの自己注意機構におけるキーとバリューのテンソルをキャッシュすることで、冗長な計算を回避します。
階層的アトリビューション: コンテキストを階層的に分割し、上位レベル(例:段落)のLOOエラーに基づいて、下位レベル(例:文)のアトリビューションを計算する範囲を絞り込みます。
プロキシモデリング: 大規模なターゲットモデルの代わりに、より小さなプロキシモデルを用いてLOOエラーを近似します。さらに、プロキシモデルを用いた枝刈りにより、ターゲットモデルで計算する必要のあるコンテキストの範囲を削減します。