Core Concepts
大規模な初期化と小さな重み減衰を用いてニューラルネットワークを訓練すると、訓練初期と後期の暗黙的バイアスの二分性によってグロッキングが確実に引き起こされる。
Abstract
本論文では、大規模な初期化と小さな重み減衰を用いてニューラルネットワークを訓練する際の理論的な分析を行っている。
訓練初期の段階では、勾配流れがカーネル予測器に対応する解に収束する「カーネル領域」に陥る。一方、訓練をさらに続けると、勾配流れが大きな限界マージンや最小ノルムの予測器に対応する解に移行する「豊かな領域」に移行する。この二つの領域の暗黙的バイアスの違いが、訓練精度と汎化精度の間の鋭い遷移、すなわちグロッキングを引き起こすことが理論的に示された。
具体的には、線形分類タスクのための対角線形ネットワークと、過剰パラメータ化された行列補完タスクの例を示し、それぞれグロッキングとその逆現象である「ミスグロッキング」が観察されることを実験的に確認している。
Stats
大規模初期化と小さな重み減衰を用いると、訓練初期の段階では、勾配流れがカーネル予測器に対応する解に収束する。
訓練をさらに続けると、勾配流れが大きな限界マージンや最小ノルムの予測器に対応する解に移行する。
この二つの領域の暗黙的バイアスの違いが、訓練精度と汎化精度の間の鋭い遷移、すなわちグロッキングを引き起こす。