Core Concepts
過剰パラメータ化された環境では、損失関数の零損失集合が大きくなり、この集合の近傍から初期化された場合、雑音付き勾配降下法は、この集合に沿って徐々に進化する。この進化の構造は、雑音の形式によって異なり、時間スケールにも影響する。
Abstract
本論文では、過剰パラメータ化された環境における、広範な雑音付き勾配降下システムの極限挙動を特徴付けている。
雑音の構造は、極限プロセスの形式だけでなく、進化が起こる時間スケールにも影響する。
ドロップアウト、ラベルノイズ、クラシックなSGDなどの例を適用し、これらが異なる2つの時間スケールで進化することを示している。
クラシックなSGDでは、両方の時間スケールで自明な進化しか起こらず、正則化のためには追加の雑音が必要であることを明らかにしている。
これらの結果は、ニューラルネットワークの学習に着想を得たものの、任意の損失関数の零損失集合を持つ雑音付き勾配降下法に適用できる。
Stats
勾配降下法のイテレーション: wk+1 = wk - α ∇w L̂(wk, ηk)
雑音変数ηkの平均と分散: E[ηk,i] = 0, Var[ηk,i] = σ2