المفاهيم الأساسية
Ring-A-Bell dient als Red-Teaming-Tool zur Bewertung von Sicherheitsmechanismen für T2I-Diffusionsmodelle.
الملخص
Das Paper untersucht die Zuverlässigkeit von Sicherheitsmechanismen für Diffusionsmodelle im Text-zu-Bild-Synthesebereich. Es stellt das Ring-A-Bell-Framework vor, das problematische Prompts generiert, um T2I-Modelle zu testen. Es zeigt, wie Ring-A-Bell in der Lage ist, unangemessene Bilder zu generieren und Sicherheitsmechanismen zu umgehen. Das Paper enthält Experimente mit Online-Diensten und Konzeptentfernungsmodellen, die die Wirksamkeit von Ring-A-Bell demonstrieren.
ABSTRACT
- Diffusionsmodelle für Text-zu-Bild-Synthese haben Fortschritte gemacht.
- Sicherheitsmechanismen wurden implementiert, um unangemessene Inhalte zu verhindern.
- Ring-A-Bell dient als Red-Teaming-Tool, um problematische Prompts zu generieren.
INTRODUCTION
- Generative KI hat in verschiedenen Bereichen Fortschritte gemacht.
- Text-zu-Bild-Modelle haben aufgrund des reichhaltigen Trainingsdatensatzes Erfolg.
- Sicherheitsmechanismen wurden entwickelt, um unangemessene Inhalte zu verhindern.
MAIN APPROACH
- Untersuchung der Wirksamkeit von Sicherheitsmechanismen für T2I-Diffusionsmodelle.
- Konstruktion eines Angriffs mit Modellkenntnissen.
- Modellagnostische Bewertung mit Ring-A-Bell.
الإحصائيات
Unsere Ergebnisse zeigen, dass Ring-A-Bell die Erfolgsrate für die meisten Konzeptentfernungsmethoden bei der Generierung unangemessener Bilder um mehr als 30% steigern kann.
اقتباسات
"Ring-A-Bell dient als Red-Teaming-Tool, um die Sicherheitsmechanismen von T2I-Diffusionsmodellen zu verstehen."