Core Concepts
ニューラルネットワークの最適化軌跡における重要な特徴とその影響を明らかにする。
Abstract
ニューラルネットワークの最適化軌跡を分析し、方向性探索の影響を示す。
重要なハイパーパラメータや正則化手法が最適化軌跡に及ぼす影響を説明。
大規模言語モデル(LLMs)におけるトレンドと結果を示す。
方向性探索が一貫性や汎化能力に与える影響を考察。
Introduction
ニューラルネットワークの損失ランドスケープと最適化アルゴリズムの関係性。
最適化軌跡の定量的・定性的指標導入。
Methodology
トラジェクトリマップや角度測定など、定量的指標導入。
パラメータ更新間の角度変化分析。
A Tale of Hyperparameters
ResNet50でSGDを使用した場合の結果とその解釈。
モメンタムやウェイトディケイなど主要なハイパーパラメータ効果。
A Ride with Momentum, Decay, & More
モメンタムやウェイトディケイ単独効果分析。
重み減衰が方向探索に及ぼす影響。
Hauling Trajectory Hallmarks for LLMs
Pythia GPT-NeoXモデルで異なるスケールでの結果比較。
モデルサイズ増加が最適化軌跡に与える影響。
Related Work and Discussion
方向収束や暗黙バイアス理解への貢献。
最終バシン品質よりも最適化パスが汎用性に与える影響考察。
Stats
深層学習成功を説明する暗黙バイアス(Gunasekar et al., 2018; Li et al., 2019; Moroshko et al., 2020)に関する先行研究あり。
Quotes
"ニューロンテンジェントカーネル:ニューロンネットワークでの収束と一般化" - Jacot et al., 2020