Conceitos essenciais
小さな学習率のSGDにおいて、モメンタムはSGDと同等の性能しか提供しない。
Resumo
本論文は、小さな学習率のSGDにおけるモメンタムの役割を理論的に分析しています。主な内容は以下の通りです:
理論的分析:
O(1/η)ステップの短期的な訓練では、SGDとSGDMの分布が近似的に等しいことを示しました。これは、モメンタムによる勾配ノイズの低減効果が限定的であることを意味しています。
O(1/η^2)ステップの長期的な訓練では、SGDとSGDMの暗黙的な正則化効果が同一であることを示しました。これは、モメンタムが一般化性能の向上にも寄与しないことを示唆しています。
実験的検証:
ImageNetデータセットの訓練では、小さなバッチサイズの場合、SGDとSGDMの性能が同等であることを確認しました。一方で、大きなバッチサイズの場合、SGDMが有効であることを示しました。
事前学習モデルのファインチューニングでは、SGDとSGDMの性能が同等であることを確認しました。
大バッチ訓練の実験では、SGDとSGDMの性能差がカーブ形状の違いによるものであり、ノイズ低減効果ではないことを示しました。
以上より、小さな学習率の設定では、モメンタムはSGDと同等の性能しか提供せず、その恩恵は限定的であることが明らかになりました。
Estatísticas
小さな学習率の設定では、SGDとSGDMの更新量の分散が O(√(η/(1-β))) の違いしかない。
過パラメータ化モデルの長期的な訓練では、SGDとSGDMの暗黙的な正則化効果が同一である。
Citações
"Momentum is known to accelerate the convergence of gradient descent in strongly convex settings without stochastic gradient noise."
"In deep learning, however, the random sampling of mini-batches inevitably introduces a large amount of stochastic gradient noise, which sometimes dominates the true gradient and may become the main source of training instability."