Główne pojęcia
多層SAEは、各変換器層の残差ストリーム活性化ベクトルを同時に学習することで、層間の情報フローを直接的に分析できる。
Streszczenie
本研究では、多層SAE(MLSAE)を提案した。MLSAEは、変換器の各層の残差ストリーム活性化ベクトルを単一のSAEで学習するものである。これにより、層間の情報フローを直接的に分析できる。
実験の結果、以下のことが明らかになった:
- 残差ストリームの活性化ベクトルは、隣接する層間で類似度が高い。モデルサイズが大きくなるほど、この傾向が強くなる。
- 全体的に見ると、MLSAEの特徴は複数の層で活性化されることが多い。しかし、個々の入力に対しては、ほとんどの特徴が単一の層でのみ活性化される。
- 特徴の層間共有の度合いは、SAEのハイパーパラメータの変化に対して頑健である。
- 変換器のサイズが大きくなるほど、隣接する層の活性化ベクトルの類似度が高くなり、特徴の層間共有が増える。
これらの結果から、MLSAEは変換器の情報フローを理解する上で有効な手法であると考えられる。
Statystyki
変換器層間の平均コサイン類似度は、モデルサイズが大きくなるほど高くなる。
Pythia-70mでは0.8付近、Pythia-2.8bでは0.95付近。