Latent Guard ist ein Sicherheitsrahmenwerk, das die Erkennung schädlicher Konzepte in Eingabeaufforderungen für Text-zu-Bild-Generatoren ermöglicht, um die Erstellung unerwünschter Inhalte zu verhindern.
Ein generatives Modell namens AmpleGCG, das die Verteilung von Angriffsvektor-Suffixen für beliebige schädliche Abfragen erfasst und die schnelle Generierung von Hunderten erfolgreicher Angriffsvektor-Suffixe ermöglicht.
Die Integration von Bildmodellen in Multimodale Große Sprachmodelle (MLLMs) birgt erhebliche Sicherheitsrisiken, die durch verschiedene Angriffsvektoren ausgenutzt werden können, um die Funktionalität und Zuverlässigkeit dieser Systeme zu untergraben.
Unser Ansatz ermöglicht es Text-zu-Bild-Modellen mit Sicherheitsverteidigungsmechanismen, semantisch reiche Inhalte, die nicht jugendfrei sind, zu generieren und Schwachstellen in aktuellen Verteidigungsmechanismen aufzuzeigen.
Spotlighting, eine Familie von Prompt-Engineering-Techniken, kann die Fähigkeit von Sprachmodellen verbessern, zwischen gültigen Systemanweisungen und unsicheren externen Eingaben zu unterscheiden, um so Prompt-Injektions-Angriffe abzuwehren.