Основные понятия
Latentes adversariales Training (LAT) kann dazu beitragen, Modelle robuster gegen unvorhergesehene Ausfallmodi zu machen.
Аннотация
Abstract:
KI-Systeme zeigen manchmal schädliche unbeabsichtigte Verhaltensweisen nach der Bereitstellung.
Red-Teaming und adversariales Training (AT) werden verwendet, um KI-Systeme robuster zu machen.
Latentes adversariales Training (LAT) nutzt komprimierte, abstrakte und strukturierte latente Repräsentationen.
Einleitung:
Entwickler verwenden Testsets, Red-Teaming und Angriffsmethoden, um Schwachstellen zu identifizieren.
Systematische Unterschiede zwischen den von Entwicklern gesuchten Ausfallmodi und den tatsächlichen post-deployment Ausfallmodi.
Training:
LAT verwendet Angriffe in den latenten Repräsentationen im Gegensatz zu AT, das Angriffe im Eingaberaum verwendet.
LAT verbessert die Robustheit gegenüber konventionellen Lp-Norm-Angriffen.
Experimente:
Experimente in Bildklassifizierung, Textklassifizierung und Textgenerierung zeigen, dass LAT die Robustheit verbessern kann.
LAT dominiert AT in Bezug auf saubere und robuste Leistung.
Статистика
Es ist nicht immer einfach, Fehler in Modellen mit Angriffen im Eingaberaum zu finden.
LAT kann Modelle robuster gegen unvorhergesehene Ausfallmodi machen.
Цитаты
"Wir nutzen latentes adversariales Training (LAT), um uns gegen Schwachstellen zu verteidigen, ohne Eingaben zu generieren, die sie hervorrufen."