Maschinelles Lernen, Sicherheit

Увійти

ідея - Maschinelles Lernen, Sicherheit

Effiziente Injektion von Backdoors in Große Sprachmodelle durch Modellbearbeitung

Durch die Neuformulierung der Backdoor-Injektion als ein leichtgewichtiges Wissensbearbeitungsproblem präsentiert BadEdit einen effizienten Rahmen, um Backdoors in vortrainierte Große Sprachmodelle einzubringen, ohne deren Gesamtleistung zu beeinträchtigen.

Effiziente Methode zur Einschleusung von Trojanern in Prompt-Tuning mit wenigen Beispielen

TrojFSP ist eine Methode, die Herausforderungen beim Erstellen von Backdoor-Angriffen auf Sprachmodelle durch Prompt-Tuning mit wenigen Beispielen löst. TrojFSP erreicht eine hohe Angriffserfolgrate, während es die Genauigkeit auf sauberen Daten minimiert.

Verteidigung gegen Transferangriffe von öffentlichen Modellen: PUBDEF, eine praxisnahe Methode zur Verbesserung der Robustheit

PUBDEF ist eine neue Methode, um KI-Modelle gegen Transferangriffe von öffentlich verfügbaren Modellen zu verteidigen, ohne dabei die normale Genauigkeit stark zu beeinträchtigen.

Sichere Feinabstimmung von vortrainierten Encodern gegen Adversarial Examples

Wir präsentieren Gen-AF, einen zweistufigen Ansatz zur adversariellen Feinabstimmung, um die Robustheit von Downstream-Modellen gegen Downstream-agnostische Adversarial Examples zu verbessern, während gleichzeitig die inhärente Generalisierungsfähigkeit des vortrainierten Encoders erhalten bleibt.

Effiziente Verteidigung gegen schwarze Kasten-Angriffe durch Gegenmuster

Eine neuartige Verteidigungsstrategie gegen schwarze Kasten-Angriffe, die den Angriffsprozess selbst konterkariert, indem für jede Abfrage ein Gegenmuster evaluiert wird, das gegen das Ziel des Angreifers optimiert ist.

Sprachgesteuerte Backdoor-Angriffe zur willkürlichen Kontrolle von Modellen

Imperio ermöglicht es dem Angreifer, Textbeschreibungen zu verwenden, um das Verhalten eines Opfermodells (eines Bildklassifizierers) willkürlich zu manipulieren.

Verbesserung der verhaltensbasierten Authentifizierung gegen Adversarial-Angriffe durch den Einsatz von XAI

Durch den Einsatz von XAI-basierten Merkmalsselektoren kann die Robustheit von verhaltensbasierten Authentifizierungssystemen gegen Adversarial-Angriffe deutlich verbessert werden.

Про нас

Продукти

Ресурси