SAFEGEN ist ein Rahmenwerk, das die Erstellung ungeeigneter visueller Darstellungen in Text-zu-Bild-Modellen unabhängig vom Texteingang verhindert. Der Schlüssel ist es, unsichere visuelle Repräsentationen aus dem Modell zu entfernen, um so die Assoziation zwischen sexuell konnotierten Texten und expliziten visuellen Darstellungen zu unterbrechen.
Feinabstimmung ermöglicht es Angreifern, RLHF-Schutzmaßnahmen in GPT-4 mit einer Erfolgsquote von bis zu 95% und mit nur 340 Beispielen zu entfernen, ohne die Nützlichkeit des Modells zu beeinträchtigen.
Ein neuartiger Steganografischer Reisepass ermöglicht die Überprüfung der Besitzerschaft und Nutzungsberechtigung von Deep-Lernmodellen, ohne dass eine Neutrainierung des Modells erforderlich ist.
Ein umfassendes Rahmenwerk zur Verbesserung der Sicherheit und Verantwortlichkeit von großen Sprachmodellen durch die Verwendung einer Taxonomie für Sicherheitsrisiken und eines speziell erstellten Datensatzes für die Feinjustierung.
Ein spieltheoretisches Rahmenwerk zur automatischen Erkennung und Optimierung von Sicherheitsrisiken in Großen Sprachmodellen durch einen interaktiven Prozess zwischen Rot-Team-Sprachmodellen und Blau-Team-Sprachmodellen.
Große Sprachmodelle wie PaLM 2 weisen schwerwiegende Sicherheitslücken auf, die zu hochgradig toxischen und diskriminierenden Inhalten führen können. Die Studie deckt besorgniserregende Muster der Voreingenommenheit gegenüber benachteiligten Gruppen und Minderheiten auf.
Dieser Artikel bietet eine umfassende Übersicht über das Feld des Red Teamings für Generative Modelle. Er präsentiert eine detaillierte Taxonomie von Angriffsstrategien, die auf den inhärenten Fähigkeiten von Sprachmodellen basieren, entwickelt ein Framework zur Vereinheitlichung verschiedener automatischer Red Teaming-Ansätze und behandelt neuartige Bereiche wie multimodale Angriffe, Risiken im Zusammenhang mit mehrsprachigen Modellen, das Phänomen des "Overkills" bei harmlosen Abfragen und die Sicherheit von Downstream-Anwendungen.
Durch die Einführung einer nichtlinearen Sondierung und einer Mehrtoken-Intervention konnte die Leistung des Inference-Time-Intervention (ITI)-Verfahrens deutlich gesteigert werden. Das vorgeschlagene NL-ITI-Verfahren erzielt signifikante Verbesserungen bei der Genauigkeit und Zuverlässigkeit von Großen Sprachmodellen auf verschiedenen Benchmarks.
Bestehende akademische Bedrohungsmodelle für die Sicherheit Künstlicher Intelligenz stimmen nicht immer mit der praktischen Nutzung und den Sicherheitsrisiken von KI überein. Obwohl alle sechs untersuchten Angriffe in der Praxis relevant sind, machen die Forschungsarbeiten oft zu großzügige Annahmen über den Zugriff des Angreifers auf Informationen, die in der Realität nicht immer verfügbar sind.
Leistungsstarke Sprachmodelle wie GPT-4 können durch Kommunikation über Chiffren die Sicherheitsausrichtung umgehen und somit unsichere Antworten generieren.