核心概念
アダプティブメソッドの挙動が平方根を取り除くことでどのように変化するかを調査し、驚くほど、そのような平方根フリーなアダプティブメソッドは畳み込みニューラルネットワークにおけるSGDとの一般化差を埋めるだけでなく、ビジョントランスフォーマーにおけるルートベースの方法のパフォーマンスを維持することがわかった。
要約
アダプティブ勾配最適化法について、平方根を取り除いた場合の影響や利点に焦点を当てた研究。従来のトレーニングスキームと比較して、現代的なトレーニング戦略である非定数学習率スケジュールやランダムサーチなどで、平方根フリーなアダプティブメソッドが有効であることが示されています。また、この手法は低精度訓練にも適しており、数値不安定性を回避しながら逆行列フリーな行列適応方法を開発する可能性があります。
統計
平方根フリーなアダプティブメソッドは畳み込みニューラルネットワークにおけるSGDと一般化差を埋める。
平方根フリーな方法はビジョントランスフォーマーでルートベースの方法と同等のパフォーマンスを維持する。
平方根削除はサイン降下への接続性を排除し、適応的手法の理解に新しい問題提起。
引用
"Removing the square root not only closes the generalization gap between adaptive methods and SGD on convolutional NNs, but also maintains the performance of square-root-based methods on vision transformers."
"Adaptive methods with square root work better than their square root free counterparts when using a constant learning rate schedule, default zero initialization, default scaling."