Die Studie analysiert zunächst die Bedrohung durch Adversarial Prompts, bei denen bestehende Gegenmaßnahmen wie externe Filter und interne textabhängige Methoden versagen können. Um dies zu adressieren, präsentiert die Studie SAFEGEN, ein neuartiges textunabhängiges Verfahren zur Modellbearbeitung.
SAFEGEN zielt darauf ab, die Fähigkeit zur Erstellung expliziter Bilder aus dem Stable Diffusion Modell zu entfernen, indem die selbstaufmerksamkeitsbasierten Schichten angepasst werden. Statt textbasierte Konzepte zu unterdrücken, entfernt SAFEGEN direkt die visuellen Repräsentationen, die mit Nacktheit assoziiert sind. Dadurch wird die Assoziation zwischen sexuell konnotierten Texten und expliziten visuellen Darstellungen gekappt, was SAFEGEN resistent gegen Adversarial Prompts macht.
Umfangreiche Experimente auf vier Datensätzen zeigen, dass SAFEGEN die Erstellung ungeeigneter Inhalte effektiv verhindert, während es die Fähigkeit zur Generierung hochwertiger, unbedenklicher Bilder beibehält. SAFEGEN übertrifft acht State-of-the-Art-Baseline-Methoden und erreicht eine Entfernungsrate von 99,1% für sexuelle Inhalte. Darüber hinaus bietet der erstellte Benchmark für Adversarial Prompts eine Grundlage für die weitere Entwicklung und Bewertung von Methoden zur Verhinderung der Erstellung ungeeigneter Inhalte.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Xinfeng Li,Y... pada arxiv.org 04-11-2024
https://arxiv.org/pdf/2404.06666.pdfPertanyaan yang Lebih Dalam