本論文は、ラベルノイズの存在下でSharpness Aware Minimization (SAM)が優れた性能を発揮する理由を分析している。
線形モデルの分析から、SAMは低損失の訓練例の勾配に重点を置くことで、クリーンな訓練例を早期に学習することが分かった。具体的には、SAMの重み付け項が低損失の訓練例の勾配をより大きく評価するため、クリーンな訓練例の学習が促進される。
深層ニューラルネットワークの場合、SAMの重み付け項による効果は限定的であるが、SAMがネットワークのヤコビアン項を正則化することで、同様の効果を発揮することが分かった。SAMはネットワークの最終層の重みと中間層の活性化の正則化に相当する効果を持つ。
このような正則化効果により、SAMはクリーンな訓練例を早期に学習し、ノイズの影響を抑えることができる。本研究の分析は、SAMの頑健性がラベルノイズ下での最終的な汎化性能ではなく、最適化の軌道に依存することを示唆している。
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Christina Ba... ที่ arxiv.org 05-07-2024
https://arxiv.org/pdf/2405.03676.pdfสอบถามเพิ่มเติม