この論文では、ニューラルネットワークの勾配ベースの解釈を変化させる汎用的な敵対的摂動(UPI)を設計する方法を提案している。
まず、UPIを設計するための最適化問題を定式化する。この問題は非凸であるため、2つのアプローチを提案している:
UPI-PCAは、UPI-Gradの一次近似として導出される。
提案手法を標準的な画像データセットとニューラルネットワークアーキテクチャに適用し、ニューラルネットワークの解釈が汎用的な摂動に対して脆弱であることを示している。実験結果は、提案手法が効果的に解釈を変化させることを示している。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Haniyeh Ehsa... om arxiv.org 04-23-2024
https://arxiv.org/pdf/2212.03095.pdfDiepere vragen