Core Concepts
深層ニューラルネットワークの訓練における確率的勾配降下法の異なるレジームとその影響を解明する。
Abstract
現代の深層ニューラルネットワークは、確率的勾配降下法(SGD)で訓練され、バッチサイズBや学習率ηが重要なハイパーパラメータである。小さなBと大きなηでは、SGDはパラメータの確率的進化に対応し、そのノイズ振幅は「温度」T≡η/Bによって制御される。しかし、十分に大きなバッチB≥B∗ではこの記述が崩れたり、温度が十分に小さい場合は勾配降下法(GD)に単純化されたりする。これらの交差点がどこで起こるかを理解することは中心的な課題であり、教師-生徒パーセプトロン分類モデルを用いてこれらの問題を解決し、予測が深層ニューラルネットワークにも適用可能であることを実証した。具体的には、B-η平面上で3つの動力学フェーズを区別する相図を得た。(省略)
Stats
SGDフェーズダイアグラム:異なるデータとアーキテクチャ向け(A.3, B.3, C.3)
テストエラー:異なるデータセット向け(A.4, B.4, C.4)
Quotes
"深層学習の成功はその限られた理解と対比している。その1つが主要アルゴリズムである確率的勾配降下法だ。"
"我々はこれらのハイパーパラメータがニューラルネットワークの訓練ダイナミクスにどう影響するかを明らかにしました。"
"我々の結果はこれらのハイパーパラメータが利用可能なデータ数に強く依存していることを説明します。"