Core Concepts
初期のニューラルネットワークトレーニング期間が外部分布の一般化に重要である。
Abstract
以前の研究では、初期トレーニング期間がIDタスクのパフォーマンスに重要であることが示されていた。
本研究では、ニューラルネットワークトレーニングの初期段階がOOD一般化にどのように影響するかを調査。
Fisher情報とシャープネスを使用して、グラデーションアンフリージング法を適用し、実験的に結果を示す。
ID結果への影響は小さいが、OODデータへの一般化に大きな影響があることが示された。
Stats
フィッシャー情報およびシャープネスは、初期トレーニング段階でOOD一般化に関連する指標として使用された。
Quotes
"Training techniques such as weight decay, learning rates, data augmentations, or adding noise to weights impact learning dynamics early on."
"The early period of learning is generally important for neural network training."
"Gradual unfreezing can improve OOD performance when training from scratch."