この研究では、低次元データ空間と高次元空間との次元間ギャップが、クリーンにトレーニングされたモデルがオフマニフォールド方向で敵対的摂動に脆弱であることを明らかにしています。さらに、異常な攻撃はこの次元ギャップから生じることが示唆されています。実験結果は、理論的な予測を裏付けており、モデルの脆弱性が増すことを示しています。また、異常な攻撃への耐性も同様に増加する傾向が見られます。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Rajdeep Hald... om arxiv.org 03-08-2024
https://arxiv.org/pdf/2403.03967.pdfDiepere vragen