本研究では、言語モデルの振る舞いを説明するための回路の忠実性に焦点を当てている。
回路とは、言語モデルの振る舞いを説明する最小限の計算サブグラフのことである。
多くの研究では、因果介入を用いて回路を特定しているが、これはモデルサイズが大きくなるにつれ非効率になる。
そこで提案されたのが、勾配ベースの近似手法であるEAP(Edge Attribution Patching)だが、EAPで見つかった回路は必ずしも忠実ではない。
本研究では、EAPに積分勾配(Integrated Gradients)を組み合わせたEAP-IGを提案し、6つのタスクでEAP-IGとEAPの忠実性を比較した。
その結果、EAP-IGはEAPよりも忠実な回路を見つけられることが示された。
また、回路の重複度と忠実性の関係を分析し、重複度だけでは忠実性を予測できないことを明らかにした。
回路の忠実性を評価することが重要であり、本研究はその方法論を提示している。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問