מושגי ליבה
神經崩塌現象(Neural Collapse,NC)在標準訓練的神經網路中並不穩定且易受對抗性擾動的影響,但在對抗訓練的網路中,乾淨和擾動物件的表徵會形成對齊的單純結構,顯示出對抗性擾動的穩健性,而TRADES訓練則不會出現神經崩塌。
תקציר
神經崩塌現象的穩健性分析
這篇研究論文探討了深度學習中一個引人注目的現象:神經崩塌(Neural Collapse,NC)。作者透過實驗分析了標準訓練和對抗訓練模型中神經崩塌的穩定性和普遍性,並得出以下結論:
標準訓練模型:
- 神經崩塌不穩定: 標準訓練模型中形成的單純結構(simplex structure)在面對對抗性擾動時非常脆弱,輕微的擾動就會導致其消失。
- 叢集跳躍現象: 對抗性攻擊會導致特徵空間中的資料點從原本的類別中心「跳躍」到另一個類別中心附近,形成一個新的、不平衡的結構。
對抗訓練模型:
- 神經崩塌依然存在: 對抗訓練模型中,乾淨和擾動物件的表徵都會形成單純結構,且這兩個單純結構非常接近,顯示出對抗性擾動的穩健性。
- 並非所有穩健訓練方法都會導致神經崩塌: TRADES 訓練演算法雖然也能夠產生穩健的模型,但並不會出現神經崩塌現象。
其他發現:
- 早期層的穩健性: 無論是標準訓練還是對抗訓練模型,早期層的特徵表示都表現出較高的穩健性,即使面對對抗性擾動也能維持一定的準確度。
研究意義:
這項研究揭示了神經崩塌現象的複雜性,並證明其與神經網路的泛化性和穩健性之間的關係並非絕對。研究結果也為理解對抗性訓練的機制提供了新的視角,並為開發更穩健的深度學習模型提供了參考。
סטטיסטיקה
標準訓練的模型在乾淨資料集上達到接近 100% 的準確度。
對抗訓練的模型在乾淨和擾動資料集上都達到接近 100% 的準確度。
針對標準訓練模型的目標攻擊成功率為 100%。
早期層的 NCC 分類器在對抗性擾動下展現出約 40% 的穩健性。
TRADES 訓練的模型在乾淨和擾動資料集上的損失函數值都趨近於零,但沒有出現神經崩塌現象。
ציטוטים
"adversarial perturbations push the representation to “leap” towards another cluster with slight angular deviation."
"Adversarial Training nudges the network to learn simple representational structures (namely, a simplex ETF) not only on clean examples but also on perturbed examples to achieve robustness against adversarial perturbations."
"Interestingly, simple nearest-neighbors classifiers defined by feature representations (either final or earlier ones) from either standardly or adversarially trained Neural Networks can exhibit remarkable accuracy and robustness, suggesting robustness is maintained in early layers for both situations, while it diminishes quickly across layers for standardly trained networks."