Core Concepts
Innovative method CAA allows precise steering of language models by modifying activations, enhancing control over model behavior.
Abstract
新しい方法であるContrastive Activation Addition(CAA)は、言語モデルの活性化を修正することにより、モデルの振る舞いを精密に制御できるようにします。CAAは、多肢選択問題のデータセットやオープンエンド生成タスクを使用して効果を評価し、他の伝統的な手法よりも効果的であることが示されています。さらに、CAAはモデルの内部表現や高レベル概念の処理に関する洞察を提供し、抽象的な概念の線形表現の出現に光を当てます。
Stats
CAAは複数選択肢行動評価データセットおよびオープンエンド生成タスクで効果的であることが示されています。
CAAは多層感知器(MLP)後などモデル内の他のポイントでも適用可能です。
CAAはfinetuningやsystem-promptingと互換性があります。