核心概念
ネットワークが記憶した例を同時に理解することが可能であり、異なる正則化手法が記憶を防ぎ、完全な一般化を達成することが示された。
要約
深層学習における一般化と記憶の課題は重要であり、本研究ではアルゴリズムデータセット上でのニューラルネットワークのトレーニングを通じてその相互作用を探求した。特に、ネットワークが不正確な例を記憶しながら規則を理解するよう強制することで、記憶可能なニューロンを明示的に識別し、取り除く方法が見つかった。さらに、重み減衰やDropout、BatchNormなどの異なる正則化手法は、ネットワークが不正確なラベルを無視し、完全な一般化を達成するよう促すことが示された。周期的重み付けされた表現から得られる結果は定量的に特徴付けされ、これらの正則化手法の効果も詳細に分析された。
統計
ネットワークは100%の一般化率を達成しながら不正確なラベルも記憶している。
正則化方法(重み減衰、Dropout、BatchNorm)はすべて記憶阻止効果を持つ。
低IPRニューロンは主に記憶に関連している。
引用
"Robust generalization is a major challenge in deep learning, particularly when the number of trainable parameters is very large."
"We show that in the presence of regularization, the training dynamics involves two consecutive stages: first, the network undergoes grokking dynamics reaching high train and test accuracy; second, it unlearns the memorizing representations."
"Weight decay and Dropout eliminate the memorizing neurons by converting them into generalizing ones, while BatchNorm de-amplifies the signal coming from the memorizing neurons without eliminating them."