核心概念
スパースな特徴回路は、言語モデルの予期せぬ振る舞いを人間が解釈可能な細粒度の単位で説明する。
要約
本論文では、スパースな特徴回路を発見し適用する手法を提案する。スパースな特徴回路は、言語モデルの振る舞いを人間が解釈可能な細粒度の特徴の相互作用として説明する。
まず、スパース自己符号化器(SAE)を用いて、言語モデルの潜在空間における人間が解釈可能な特徴を同定する。次に、線形近似を用いて、これらの特徴が言語モデルの振る舞いにどのように因果的に関与しているかを効率的に特定する。これにより、スパースな特徴回路を発見できる。
発見したスパース特徴回路は、従来の粗粒度な解釈よりも詳細で解釈可能である。また、回路の一部を除去することで、言語モデルの一般化を改善できる(SHIFT)。さらに、自動的に発見したモデル振る舞いに対してもスパース特徴回路を発見できる。
統計
言語モデルの主語-動詞一致タスクにおいて、特徴回路は全体の19%の性能を説明できる。一方、同等の性能を説明するのに1500個もの個別ニューロンが必要である。
引用
"スパースな特徴回路は、言語モデルの予期せぬ振る舞いを人間が解釈可能な細粒度の単位で説明する。"
"特徴回路を一部除去することで、言語モデルの一般化を改善できる。"