核心概念
ログアニーリングは、学習率の変化を厳密に管理し、モデルの訓練プロセスを効果的に改善します。
要約
学習率スケジューラーは、モデル訓練プロセス中の探索ステップサイズを変化させるための指示セットです。
サイクリカルログアニーリングは、勾配降下法を用いてステップサイズを再起動する新しい対数メソッドであり、オンライン凸最適化フレームワークでより貪欲なアルゴリズムの使用を可能にします。
CIFAR-10画像データセット上での実験では、コサインアニーリングと同等の性能が観測されました。
トランスフォーマー強化残差ニューラルネットワークにおける実験結果も提供されています。
Gradient Based Optimization
勾配降下法や二次情報を使用した最適化手法について説明されています。
モメンタムベースの最適化や二次勾配情報の近似が利用されています。
Restarting Mechan
多峰関数の最適化における再起動メカニズムについて述べられています。
現在の範囲内で学習率を変更することで、局所最小値や鞍点から逃れることが目的です。
Experiments
CIFAR-10分類およびTransformer CIFAR-10分類における実験結果が示されています。
ログアニーリングはコサインアニーリングと同等またはそれ以上の結果を示すことが観察されました。
統計
SGDはAdamよりも適応性が低く、一定の学習率と互換性が低いため使用されました。
初期学習率はη0 = 0.0001、ウェイト減衰は0.0005などが設定されました。
引用
"Models using this scheduler achieved similar, and sometimes better results than cosine decay and step-based decay."
"Log annealing comprises a larger range of ηt than cosine annealing, however it crosses that range significantly w.r.t. T."