Die Studie präsentiert eine neuartige Verteidigung gegen schwarze Kasten-Angriffe, bei denen Angreifer das Opfermodell als Orakel verwenden, um ihre Adversarial-Beispiele zu erstellen. Im Gegensatz zu herkömmlichen Preprocessing-Verteidigungen, die auf der Bereinigung von Eingabemustern basieren, konterkariert unsere zustandslose Strategie den Angriffsprozess selbst. Für jede Abfrage evaluieren wir ein Gegenmuster, bei dem das Gegenmuster das Originalmuster ist, das gegen das Ziel des Angreifers optimiert wurde. Indem wir jede schwarze Kasten-Abfrage mit einer gezielten Weißkasten-Optimierung kontern, führt unsere Strategie effektiv eine Asymmetrie zugunsten des Verteidigers ein. Diese Verteidigung täuscht nicht nur den Suchprozess des Angreifers nach einem Adversarial-Beispiel, sondern erhält auch die Genauigkeit des Modells bei legitimen Eingaben und ist für verschiedene Angriffsarten generisch.
Die Studie zeigt, dass der Ansatz sehr effektiv gegen den aktuellen Stand der Technik bei schwarzen Kasten-Angriffen ist und bestehende Verteidigungen sowohl für CIFAR-10 als auch für ImageNet übertrifft. Darüber hinaus wird gezeigt, dass die vorgeschlagene Verteidigung auch gegen starke Angreifer robust ist.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Roey Bokobza... lúc arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.10562.pdfYêu cầu sâu hơn