核心概念
言語モデル内部の活性化ベクトルをスケーリングすることで、モデルの予測を効果的に操作し、その内部動作を解釈できる。
本論文は、言語モデルの解釈可能性と操作性という2つの目標を統合することを目指し、活性化スケーリングという新しい手法を提案しています。この手法は、モデルの活性化ベクトルにスケーリングを適用することで、モデルの予測を特定の方向に誘導します。
活性化スケーリングは、モデル内の特定の活性化ベクトルに、学習可能なスカラー値を乗算することで動作します。このスカラー値は、勾配ベースの最適化によって学習され、モデルの予測を効果的かつ忠実に操作するように調整されます。