核心概念
正則化された勾配クリッピングアルゴリズムを提案し、十分に幅広いニューラルネットワークでは、任意のトレーニングデータに対して損失関数を最小化できることを証明した。
要約
本研究では、標準的な勾配クリッピングアルゴリズムを改良した正則化された勾配クリッピング(δ-Regularized-GClip)アルゴリズムを提案している。このアルゴリズムは以下の特徴を持つ:
勾配ノルムが大きくなりすぎるのを防ぐために、勾配クリッピングの閾値に下限を設けている。
十分に幅広いニューラルネットワークでは、任意のトレーニングデータに対して損失関数を最小化できることを理論的に証明した。
実験的にも、Adam、確率的勾配降下法、標準的な勾配クリッピングと比較して、競争力のある性能を示した。
理論的な証明では、ニューラルネットワークの損失関数がPL条件を満たすことを利用している。PL条件は、ニューラルネットワークの初期化近傍で成り立つことが最近示されている。
正則化された勾配クリッピングアルゴリズムは、この条件を活用することで、深層ニューラルネットワークの訓練を確実に行えることを証明した。
統計
十分に幅広いニューラルネットワークでは、任意のトレーニングデータに対して損失関数を最小化できる。
正則化された勾gradient クリッピングアルゴリズムの収束率は、L(wt) ≤ L(w0)(1 - 1/2 · ηδμ)^t である。
引用
"正則化された勾配クリッピングアルゴリズムは、深層ニューラルネットワークの訓練を確実に行えることを証明した。"
"実験的にも、Adam、確率的勾配降下法、標準的な勾配クリッピングと比較して、競争力のある性能を示した。"