核心概念
高次元解析は、フルバッチ設定での損失関数ヘシアンの大きな固有値の動態に驚くべき頑健な特徴があることを示している。初期段階では固有値が増加する進行的な鋭さがあり、その後安定性の境界で安定化する。しかし、ミニバッチ設定では固有値の増加が抑制される保守的な鋭さが見られる。この現象の理論的分析と、ストキャスティックな安定性の境界(S-EOS)の定義を行う。
要約
本研究では、高次元の単純な回帰モデルの理論的分析と、ニューラルネットワークの実験的研究を通して、ストキャスティックな最適化ダイナミクスの特徴を明らかにしている。
理論分析では以下の点を示した:
- ストキャスティックな安定性の境界(S-EOS)は、平均二乗誤差(MSE)設定では雑音カーネルノルム Kによって特徴づけられる
- 保守的な鋭さは、ヤコビアンとその勾配の統計に依存し、より大きな固有値をより強く抑制する
実験的研究では以下を示した:
- Kは1付近で自己安定化し、決定論的な EOS とは質的に異なる S-EOS 安定化を示す
- 小さなバッチサイズでは、Kは η/B の緩やかな関数となる
- Kは様々なモデルサイズ、モーメンタム、学習率スケジュールにわたって訓練結果を予測する
これらの結果は、ストキャスティックな最適化ダイナミクスを理解する上で、Kのような量が有用であることを示唆している。
統計
B-1DPVztr[ˆΘt]η2V(σα) + O(D-1)
d2(η)-B-1D-2η3σ3αtV(σα)PVz + O(η4)