Core Concepts
インダクションヘッドの形成には、相互に作用する3つの基本的なサブ回路が関与しており、それらの形成ダイナミクスが位相変化を引き起こしている。
Abstract
本研究では、インダクションヘッドの形成メカニズムを詳細に分析しています。
まず、インダクションヘッドは複数形成され、それらが相補的に機能することを示しました。また、前トークンヘッドとインダクションヘッドの接続は多対多の関係にあることを明らかにしました。
次に、人工的な光遺伝学的手法を用いて、インダクションヘッドの形成に関与する3つの基本的なサブ回路を同定しました。これらのサブ回路は、以下のような役割を果たしています:
前トークンの注意と転写 (Subcircuit A)
インダクションヘッドでのクエリーとキーのマッチング (Subcircuit B)
入力ラベルの出力への転写 (Subcircuit C)
これらのサブ回路の相互作用が、インダクションヘッドの形成に伴う位相変化を引き起こしていることが明らかになりました。
さらに、データプロパティの変化がこれらのサブ回路の形成タイミングに影響を与え、ひいては位相変化のタイミングを変化させることを示しました。これにより、データ依存的な学習ダイナミクスを理解することができます。
本研究は、トランスフォーマーの内部メカニズムの詳細な理解に貢献するものです。提案した人工光遺伝学的手法は、学習ダイナミクスの因果的な分析に有用であり、今後の解釈可能性研究に活用されることが期待されます。
Stats
50クラスのデータセットを使用した場合、位相変化が2e5ステップ付近で観察された。
100クラスのデータセットを使用した場合、位相変化が3e5ステップ付近に遅延した。
5ラベルのデータセットを使用した場合、位相変化が3e4ステップ付近で観察された。
15ラベルのデータセットを使用した場合、位相変化が1e5ステップ付近に遅延した。
Quotes
"インダクションヘッドは複数形成され、それらが相補的に機能する"
"前トークンヘッドとインダクションヘッドの接続は多対多の関係にある"
"インダクションヘッドの形成には、相互に作用する3つの基本的なサブ回路が関与している"