Der Artikel stellt eine neue Methode namens Feature Partition Aggregation (FPA) vor, die zertifizierte Robustheit gegen eine Vereinigung von ℓ0-Angriffen bietet. ℓ0-Angriffe manipulieren einen unbekannten Teilsatz der Merkmale, was für heterogene (tabellarische) Daten besonders relevant ist.
Bestehende zertifizierte ℓ0-Verteidigungen sind auf Ausweichangriffe beschränkt und bieten keine Garantien gegen Vergiftungs- oder Backdoor-Angriffe. FPA überwindet diese Einschränkung, indem es ein Ensemble-Modell verwendet, bei dem jedes Teilmodell nur auf einem disjunkten Merkmalssatz trainiert wird. Dadurch ist FPA gegen die Vereinigung von ℓ0-Ausweich-, Vergiftungs- und Backdoor-Angriffen zertifiziert.
Im Vergleich zum Stand der Technik bietet FPA bis zu 4-mal größere mediane Robustheitsgarantien, bei gleichzeitig geringfügig niedrigerer Klassifikationsgenauigkeit. Darüber hinaus ist FPA bis zu 3.000-mal schneller bei der Zertifizierung einer Vorhersage. FPA ist damit die erste integrierte Verteidigung, die signifikante punktweise Robustheitsgarantien gegen die Vereinigung von Ausweich-, Vergiftungs- und Backdoor-Angriffen bietet.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Zayd Hammoud... at arxiv.org 04-09-2024
https://arxiv.org/pdf/2302.11628.pdfDeeper Inquiries