この研究では、低次元データ空間と高次元空間との次元間ギャップが、クリーンにトレーニングされたモデルがオフマニフォールド方向で敵対的摂動に脆弱であることを明らかにしています。さらに、異常な攻撃はこの次元ギャップから生じることが示唆されています。実験結果は、理論的な予測を裏付けており、モデルの脆弱性が増すことを示しています。また、異常な攻撃への耐性も同様に増加する傾向が見られます。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Rajdeep Hald... klokken arxiv.org 03-08-2024
https://arxiv.org/pdf/2403.03967.pdfDypere Spørsmål