Durch die Neuformulierung der Backdoor-Injektion als ein leichtgewichtiges Wissensbearbeitungsproblem präsentiert BadEdit einen effizienten Rahmen, um Backdoors in vortrainierte Große Sprachmodelle einzubringen, ohne deren Gesamtleistung zu beeinträchtigen.
TrojFSP ist eine Methode, die Herausforderungen beim Erstellen von Backdoor-Angriffen auf Sprachmodelle durch Prompt-Tuning mit wenigen Beispielen löst. TrojFSP erreicht eine hohe Angriffserfolgrate, während es die Genauigkeit auf sauberen Daten minimiert.
PUBDEF ist eine neue Methode, um KI-Modelle gegen Transferangriffe von öffentlich verfügbaren Modellen zu verteidigen, ohne dabei die normale Genauigkeit stark zu beeinträchtigen.
Wir präsentieren Gen-AF, einen zweistufigen Ansatz zur adversariellen Feinabstimmung, um die Robustheit von Downstream-Modellen gegen Downstream-agnostische Adversarial Examples zu verbessern, während gleichzeitig die inhärente Generalisierungsfähigkeit des vortrainierten Encoders erhalten bleibt.
Eine neuartige Verteidigungsstrategie gegen schwarze Kasten-Angriffe, die den Angriffsprozess selbst konterkariert, indem für jede Abfrage ein Gegenmuster evaluiert wird, das gegen das Ziel des Angreifers optimiert ist.
Imperio ermöglicht es dem Angreifer, Textbeschreibungen zu verwenden, um das Verhalten eines Opfermodells (eines Bildklassifizierers) willkürlich zu manipulieren.
Durch den Einsatz von XAI-basierten Merkmalsselektoren kann die Robustheit von verhaltensbasierten Authentifizierungssystemen gegen Adversarial-Angriffe deutlich verbessert werden.