Belangrijkste concepten
Durch den Einsatz eines lernbaren Prompts als zusätzliches Gedächtnis in den Cross-Attention-Modulen können unerwünschte Konzepte effektiv aus Text-zu-Bild-Generierungsmodellen entfernt werden, ohne dass andere Konzepte stark beeinträchtigt werden.
Samenvatting
Die Studie präsentiert eine neuartige Methode, um unerwünschte Konzepte wie urheberrechtlich geschützten oder unethischen Inhalt aus Text-zu-Bild-Generierungsmodellen zu entfernen. Dazu wird ein lernbarer Prompt in die Cross-Attention-Module des Modells integriert. Dieser Prompt dient als zusätzliches Gedächtnis, um das Wissen über unerwünschte Konzepte darauf zu übertragen und die Abhängigkeit des Modells von diesen Konzepten zu reduzieren. Durch diesen Wissenstransfer in den Prompt kann das Entfernen dieser unerwünschten Konzepte stabiler erfolgen und hat nur minimale Auswirkungen auf andere Konzepte.
Die Autoren demonstrieren die Wirksamkeit ihrer Methode am Beispiel des Stable Diffusion-Modells und zeigen, dass sie den aktuellen Löschverfahren in Bezug auf das Entfernen unerwünschter Inhalte bei gleichzeitiger Beibehaltung anderer, unzusammenhängender Elemente überlegen ist.
Die Studie umfasst drei Experimente:
- Entfernung objektbezogener Konzepte: Die Methode zeigt eine hohe Löschrate für unerwünschte Objektklassen wie "Kassettenspieler" bei gleichzeitigem Erhalt anderer Konzepte.
- Abschwächung unethischer Inhalte: Die Methode erweist sich als effektiv beim Entfernen von NSFW-Inhalten (Not-Safe-For-Work) aus generierten Bildern.
- Entfernung von Kunstkonzepten: Die Methode kann auch Konzepte zu Künstlerstilen wie "Kelly Mckernan" oder "Thomas Kinkade" erfolgreich löschen, ohne andere Konzepte stark zu beeinträchtigen.
Darüber hinaus bietet die Studie Einblicke in den Mechanismus des lernbaren Prompts. Es wird gezeigt, wie der Prompt im Laufe des Feinabstimmungsprozesses das Wissen über die zu löschenden Konzepte aufnimmt und wie dies die Stabilität des Löschvorgangs und den Erhalt anderer Konzepte begünstigt.
Statistieken
"Nur 22,0% der vom Originalmodell generierten Bilder enthielten nicht die zu löschenden Objektklassen."
"Unser Verfahren erreicht eine Löschrate von 99,2% für die zu löschenden Objektklassen, bei gleichzeitigem Erhalt von 75,3% der anderen Konzepte."
"Unser Verfahren reduziert den Anteil der Bilder mit erkannten Nacktheitssignalen auf 3,95%, im Vergleich zu 5,32% und 6,87% bei den Baseline-Methoden."
Citaten
"Durch den Einsatz eines lernbaren Prompts als zusätzliches Gedächtnis in den Cross-Attention-Modulen können unerwünschte Konzepte effektiv aus Text-zu-Bild-Generierungsmodellen entfernt werden, ohne dass andere Konzepte stark beeinträchtigt werden."
"Der Prompt dient als verdeckter Schlüssel, der einen Hintertür im Modell öffnet und die Wiederherstellung der Fähigkeit zur Generierung verbotener Inhalte ermöglicht."