Keskeiset käsitteet
予測符号化ネットワークとターゲット伝播といった局所学習手法に対して、無限幅における安定した学習を実現するパラメータ化 (µP) を導出し、その特性を解明した。
Tiivistelmä
無限幅における局所損失最適化:予測符号化ネットワークとターゲット伝播の安定したパラメータ化
本論文は、予測符号化 (PC) ネットワークとターゲット伝播 (TP) を用いた局所学習における、無限幅の深層ニューラルネットワークにおける学習ダイナミクスの理論的解析と、安定した学習を実現するパラメータ化 (µP) の導出に関する研究論文である。
深層学習は、バックプロパゲーション (BP) アルゴリズムとそのためのアーキテクチャの開発により、目覚ましい性能を達成してきた。しかし、BPは生物学的に妥当な計算や効率的な分散計算など、より一般的な目的には適していない場合がある。そこで代替手段として、損失関数を層ごとに定義し、ターゲットを局所的に設定する、一種のクレジット割り当て問題である局所損失最適化が注目されている。
局所学習の代表的な手法として、推論の内部ダイナミクスを通じてターゲットを生成する予測符号化 (PC) ネットワークと、フィードバックネットワークを用いてターゲットを生成するターゲット伝播 (TP) が挙げられる。しかし、これらの手法はBPと比較してハイパーパラメータの調整が複雑であり、安定した学習を実現するための理論的裏付けが不足している。
一方、標準的なBPにおいては、深層学習理論により、無限幅のネットワークにおける学習の普遍的な性質が明らかになりつつある。特に、YangとHu (2021) は、特徴量学習を実現するハイパーパラメータの独自のスケーリングとして、最大更新パラメータ化 (µP) を提案した。
本研究では、これらの知見に基づき、PCとTPに対してµPを導出し、異なる幅のモデル間でのハイパーパラメータ転移 (µTransfer) を調査することを目的とする。