Core Concepts
二次モデルは、深層ニューラルネットワークの最適化ダイナミクスにおける「カタパルト」現象を捉えることができる。この現象は、線形モデルでは説明できない深層ネットワークの特性を反映している。
Abstract
本研究では、二次モデル(NQM)を用いて、深層ニューラルネットワークの最適化ダイナミクスにおける「カタパルト」現象を分析している。
主な内容は以下の通り:
単一の訓練例に対するNQMの最適化ダイナミクスを分析し、学習率に応じて3つの動作モード(単調収束、カタパルト収束、発散)があることを示した。特に、超臨界学習率の下でカタパルト現象が起こることを理論的に証明した。
複数の訓練例に対するNQMの最適化ダイナミクスを分析し、カタパルト現象がタンジェントカーネルの主要固有空間で起こることを示した。
NQMの一般化性能を、対応する深層ニューラルネットワークおよび線形モデルと比較した。その結果、超臨界学習率の下でNQMが最も良い一般化性能を示すことを実験的に確認した。
これらの結果から、二次モデルは深層ネットワークの最適化ダイナミクスと一般化性能を理解する上で有効なツールであることが示された。
Stats
深層ニューラルネットワークの最適化ダイナミクスにおいて、臨界学習率を超えると「カタパルト」現象が起こり、損失関数が一旦増加した後に減少する。
二次モデル(NQM)でも同様の「カタパルト」現象が観察され、その動作は深層ネットワークと良く一致する。
二次モデルの一般化性能は、超臨界学習率の下で最も良好となる。
Quotes
「深層ニューラルネットワークは、その幅が十分に大きくなると線形モデルで近似できるが、有限幅のネットワークにはそれでは捉えきれない性質がある。」
「二次モデル(NQM)は、深層ネットワークの最適化ダイナミクスにおける「カタパルト」現象を捉えることができる。」
「二次モデルの一般化性能は、超臨界学習率の下で最も良好となる。」