Der Artikel stellt Latent Guard, ein Sicherheitsrahmenwerk für Text-zu-Bild-Generatoren, vor. Latent Guard zielt darauf ab, die Erkennung schädlicher Konzepte in Eingabeaufforderungen zu verbessern, um die Erstellung unerwünschter Inhalte zu verhindern.
Der Artikel beginnt mit einer Einführung in die Problematik der Sicherheit bei Text-zu-Bild-Generatoren. Bestehende Sicherheitsmaßnahmen wie Blacklisten oder Klassifikatoren für schädliche Inhalte haben Nachteile wie leichte Umgehbarkeit oder hohe Anforderungen an Trainingsdaten.
Latent Guard verfolgt einen anderen Ansatz. Statt direkt Eingabeaufforderungen als sicher oder unsicher zu klassifizieren, erkennt es das Vorhandensein von Konzepten aus einer Blacklist in der latenten Darstellung der Eingabeaufforderung. Dazu wird ein spezielles Architekturmodul auf einem vortrainierten Textencoder aufgesetzt, das eine kontrastive Lernstrategie verwendet.
Der Artikel evaluiert Latent Guard auf verschiedenen Datensätzen und Szenarien, darunter auch Angriffe, die auf den Textencoder abzielen. Latent Guard zeigt eine robuste Erkennung schädlicher Konzepte bei geringem Rechenaufwand. Zusätzlich ermöglicht der Ansatz eine flexible Anpassung der Blacklist ohne Neutrainierung.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Runtao Liu,A... lúc arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08031.pdfYêu cầu sâu hơn