本論文では、連続時間確率的勾配降下法の収束性について研究している。具体的には以下の内容が示されている:
一般的な損失関数と確率的ノイズに対して、連続時間確率的勾配降下法の収束性に関する十分条件を導出した。これは、Chatterjeeによる決定論的勾配降下法の収束性結果を拡張したものである。
過パラメータ化された線形ニューラルネットワークの学習問題に本結果を適用し、適切な初期化と学習率の下で、大域的最小値に収束することを示した。具体的には、出力層の重みが十分大きく、隠れ層の重みが正の値を持つ場合に、収束が保証される。
収束の確率は、初期値の近傍と学習率の大きさに依存する。適切に設定すれば、収束確率を任意に高くできることを示した。
本結果は、過パラメータ化された深層ニューラルネットワークの学習における確率的勾配降下法の理論的理解を深めるものである。
翻譯成其他語言
從原文內容
arxiv.org
深入探究