本研究では、ニューラルリトリーバルモデルの内部メカニズムを理解するために、公理的因果介入を使用しています。具体的には、TFC1公理に沿った頻度情報の符号化を特定のモデル構成要素に局在化することを目的としています。
まず、リトリーバルタスクに適したアクティベーションパッチングの設定を提案しました。次に、公理に基づいた診断データセットの構築に関するガイドラインを示しました。
実験の結果、TAS-Bモデルが4つの注意ヘッドを使用して頻度情報を符号化していることが明らかになりました。これらのヘッドは、前層では重複トークンに注目し、中間層では文書全体の関連性シグナルを構築しています。この発見は、ニューラルリトリーバルモデルの内部メカニズムを理解し、より解釈可能な関連性定義を構築する上で重要な洞察を提供します。
さらに、診断データセットの構築、モデル編集、バイアス検出など、公理的因果介入アプローチの応用可能性についても議論しています。
翻譯成其他語言
從原文內容
arxiv.org
深入探究