この論文では、SGDにおける訓練損失のスパイクがカタパルトダイナミクスによって引き起こされることを示しました。また、カタパルトはAGOP(平均勾配外積)との整合性を高めて一般化性能を向上させることを実証しました。小さなバッチサイズでSGDを行うことで、より多くのカタパルトが発生し、AGOPとの整合性が向上するため、一般化性能が改善されます。
具体的な実験結果や理論的考察から、GDやSGDにおけるカタパルト現象が特徴学習を促進し、テスト性能向上につながるメカニズムを明らかにしています。また、異なる最適化アルゴリズムでのテスト性能とAGOP整合性の強い相関も示しています。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor