Centrala begrepp
Aufgabenvektoren (Task Vectors, TV) können zur robusten, eingabeunabhängigen Löschung unerwünschter Konzepte in Text-zu-Bild-Modellen verwendet werden.
Sammanfattning
Der Artikel befasst sich mit der Herausforderung, unerwünschte Inhalte in Text-zu-Bild-Modellen zu unterdrücken. Bisherige Methoden zur Konzeptlöschung sind oft eingabeabhängig und können von Angreifern umgangen werden, indem andere Eingaben verwendet werden.
Die Autoren schlagen stattdessen den Einsatz von Aufgabenvektoren (Task Vectors, TV) vor, um Konzepte auf eine eingabeunabhängige Art und Weise zu löschen. Sie zeigen, dass TV-basierte Löschung eine bessere "unbedingte Sicherheit" bietet als bisherige Methoden.
Um TV-basierte Löschung auf großen Modellen anzuwenden, ohne deren Kernfunktionalität zu beeinträchtigen, entwickeln die Autoren eine Methode namens "Diverse Inversion". Damit können sie die erforderliche Stärke des TV-Edits schätzen und sogar nur einen Teil der Modellparameter editieren, um ein besseres Gleichgewicht zwischen Konzeptlöschung und Modellleistung zu erreichen.
Die Experimente zeigen, dass die vorgeschlagene Methode robuster gegen aktuelle Angriffstechniken ist als bisherige Konzeptlöschverfahren.
Statistik
Keine relevanten Statistiken oder Kennzahlen im Artikel.
Citat
Keine markanten Zitate im Artikel.