本論文では、鋭敏さ認識最小化(SAM)のアルゴリズムについて分析を行っている。
まず、従来の勾配降下法(GD)の場合、ヘッセ行列の最大固有値が2/ηの近傍に収束することが知られている(「安定性の限界」)。本論文では、SAMの場合の「安定性の限界」を導出し、これがGDの場合とは異なり、勾配の大きさにも依存することを示した。
次に、MNISTデータセットでの全結合ネットワーク、CIFAR10データセットでの畳み込みネットワーク、tiny_shakespeareデータセットでの言語モデルの各タスクにおいて、SAMを適用した際のヘッセ行列の最大固有値の振る舞いを実験的に確認した。その結果、SAMは導出した「安定性の限界」に沿って動作していることが確認された。特に、SAMはGDに比べて、訓練誤差がまだ大きい段階から、より滑らかな領域の解を見つけていくことが分かった。
また、SAMで使用する勾配がGDの勾配よりもヘッセ行列の主固有ベクトルにより強く整列する傾向があることも確認された。この整列の理由や条件については、今後の課題として挙げられている。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Philip M. Lo... at arxiv.org 04-10-2024
https://arxiv.org/pdf/2309.12488.pdfDeeper Inquiries