核心概念
本文提出了一種名為 AdaNCA 的新型細胞神經網路 (NCA) 模組,作為一種即插即用的適配器,用於增強視覺Transformer (ViT) 的魯棒性,使其能夠更好地應對對抗性樣本和分佈外數據。
研究目標
本研究旨在解決視覺Transformer (ViT) 缺乏魯棒性的問題,特別是在面對對抗性樣本和分佈外數據時。研究人員提出了一種名為 AdaNCA 的新型細胞神經網路 (NCA) 模組,作為一種即插即用的適配器,用於增強 ViT 的魯棒性。
方法
研究人員將 NCA 整合到 ViT 的中間層,作為輕量級適配器,用於增強 ViT 對抗對抗性攻擊和分佈外輸入的魯棒性。
為了降低標準 NCA 的計算開銷,他們提出了動態交互機制,用於更高效的交互學習。
他們還開發了一種演算法,用於識別 AdaNCA 最有效的插入點,以最大程度地提高魯棒性。
主要發現
AdaNCA 在各種魯棒性基準測試以及乾淨數據集上的表現始終優於相應的基準 ViT 模型。
AdaNCA 增強了 ViT 對特定類型噪聲的敏感性,使其更接近人類的噪聲感知能力。
AdaNCA 的有效性歸因於其在 ViT 層之間傳輸信息的能力,從而提高了網路冗餘性。
主要結論
AdaNCA 作為一種即插即用模組,可以有效地提高 ViT 在圖像分類任務中的魯棒性,使其能夠更好地應對對抗性攻擊和分佈外數據。
意義
這項研究為構建更強大的 ViT 架構提供了新的思路,並為 NCA 在實際應用中的應用開闢了新的途徑。
局限性和未來研究方向
AdaNCA 無法適應未經訓練的遞迴步驟,這限制了其泛化能力。
AdaNCA 會增加原始架構的計算成本,需要進一步研究以提高其效率。
未來的工作可以探索 AdaNCA 在更大規模問題和不同圖像大小上的應用。
统计
在 ImageNet1K 基準測試中,AdaNCA 在某些對抗性攻擊下,參數增加不到 3%,準確率卻提高了 10% 以上。
AdaNCA 將網路冗餘性與插入位置相關聯,皮爾森相關係數為 0.6938 (p < 0.001)。