本文提出了一種名為對抗性塗鴉的新型攻擊方法,其具有可解釋和人類可繪製的形狀。
首先,作者利用基於梯度的優化方法來優化一組貝茲曲線的控制點,從而生成對抗性塗鴉。為了增強攻擊的魯棒性,作者引入了隨機仿射變換和對塗鴉區域的正則化。
實驗結果表明,即使人類手繪這些攻擊,也能成功欺騙ResNet-50和ViT-B/32分類器。此外,作者發現了一些可描述的洞見,解釋了人類繪製的塗鴉形狀與分類器輸出之間的關係。例如,在一張直升機圖像上添加三個小圓圈,ResNet-50分類器會錯誤地將其分類為飛機。
作者進一步分析了隨機仿射變換如何提高人類手繪攻擊的成功率,以及GradCAM如何解釋攻擊成功或失敗的原因。最後,作者討論了將對抗性塗鴉應用於物理世界攻擊的潛力,以及未來的研究方向。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы