Der Artikel stellt Latent Guard, ein Sicherheitsrahmenwerk für Text-zu-Bild-Generatoren, vor. Latent Guard zielt darauf ab, die Erkennung schädlicher Konzepte in Eingabeaufforderungen zu verbessern, um die Erstellung unerwünschter Inhalte zu verhindern.
Der Artikel beginnt mit einer Einführung in die Problematik der Sicherheit bei Text-zu-Bild-Generatoren. Bestehende Sicherheitsmaßnahmen wie Blacklisten oder Klassifikatoren für schädliche Inhalte haben Nachteile wie leichte Umgehbarkeit oder hohe Anforderungen an Trainingsdaten.
Latent Guard verfolgt einen anderen Ansatz. Statt direkt Eingabeaufforderungen als sicher oder unsicher zu klassifizieren, erkennt es das Vorhandensein von Konzepten aus einer Blacklist in der latenten Darstellung der Eingabeaufforderung. Dazu wird ein spezielles Architekturmodul auf einem vortrainierten Textencoder aufgesetzt, das eine kontrastive Lernstrategie verwendet.
Der Artikel evaluiert Latent Guard auf verschiedenen Datensätzen und Szenarien, darunter auch Angriffe, die auf den Textencoder abzielen. Latent Guard zeigt eine robuste Erkennung schädlicher Konzepte bei geringem Rechenaufwand. Zusätzlich ermöglicht der Ansatz eine flexible Anpassung der Blacklist ohne Neutrainierung.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문