Conceptos Básicos
活性化パッチングは解釈可能性の高い手法であるが、その適用方法と結果の解釈には多くの微妙な点がある。実践的な経験に基づいて、この手法の使用と解釈に関するアドバイスとベストプラクティスを提供する。
Resumen
活性化パッチングは、ニューラルネットワークの内部活性化を置き換える手法である。様々な適用方法があり、結果の解釈にも注意が必要である。
- 探索的パッチングでは、モデルの各部分を個別にパッチすることで、特定の機能に関与する部分を特定する。
- 確認的パッチングでは、仮説とした回路を全体としてパッチし、その機能を検証する。
- パッチングの対象となる部分の粒度を変えることで、より詳細な分析が可能となる。
- 「ノイジング」と「ディノイジング」は異なる情報を提供するため、状況に応じて使い分ける必要がある。
- メトリクスの選択も重要で、ロジット差分やログ確率などの連続的な指標が有効である。離散的なメトリクスは解釈が難しい。
Estadísticas
正解の答えのロジットと誤答のロジットの差は、モデルの正解に対する確信度を示す。
正解の答えのログ確率は、モデルの正解に対する確信度を示す。
正解の答えの確率は、モデルの正解に対する確信度を示す。
Citas
"活性化パッチングは、ニューラルネットワークの内部活性化を置き換える手法である。"
"探索的パッチングでは、モデルの各部分を個別にパッチすることで、特定の機能に関与する部分を特定する。"
"確認的パッチングでは、仮説とした回路を全体としてパッチし、その機能を検証する。"