Künstliche Intelligenz Sicherheit

Connexion

Idée - Künstliche Intelligenz Sicherheit

Sichere Generierung: Ein Rahmenwerk zur Eindämmung der Erstellung ungeeigneter Inhalte in Text-zu-Bild-Modellen

SAFEGEN ist ein Rahmenwerk, das die Erstellung ungeeigneter visueller Darstellungen in Text-zu-Bild-Modellen unabhängig vom Texteingang verhindert. Der Schlüssel ist es, unsichere visuelle Repräsentationen aus dem Modell zu entfernen, um so die Assoziation zwischen sexuell konnotierten Texten und expliziten visuellen Darstellungen zu unterbrechen.

Die Entfernung von RLHF-Schutzmaßnahmen in GPT-4 durch Feinabstimmung

Feinabstimmung ermöglicht es Angreifern, RLHF-Schutzmaßnahmen in GPT-4 mit einer Erfolgsquote von bis zu 95% und mit nur 340 Beispielen zu entfernen, ohne die Nützlichkeit des Modells zu beeinträchtigen.

Steganografischer Reisepass: Ein vom Besitzer und Nutzer überprüfbares Berechtigungsnachweissystem zum Schutz des geistigen Eigentums von Deep-Modellen ohne Neutrainierung

Ein neuartiger Steganografischer Reisepass ermöglicht die Überprüfung der Besitzerschaft und Nutzungsberechtigung von Deep-Lernmodellen, ohne dass eine Neutrainierung des Modells erforderlich ist.

Entwicklung sicherer und verantwortungsvoller großer Sprachmodelle - Ein umfassendes Rahmenwerk

Ein umfassendes Rahmenwerk zur Verbesserung der Sicherheit und Verantwortlichkeit von großen Sprachmodellen durch die Verwendung einer Taxonomie für Sicherheitsrisiken und eines speziell erstellten Datensatzes für die Feinjustierung.

Automatisierte Erkennung und Optimierung von Sicherheitsrisiken in Großen Sprachmodellen durch ein spieltheoretisches Rahmenwerk

Ein spieltheoretisches Rahmenwerk zur automatischen Erkennung und Optimierung von Sicherheitsrisiken in Großen Sprachmodellen durch einen interaktiven Prozess zwischen Rot-Team-Sprachmodellen und Blau-Team-Sprachmodellen.

Erschreckende Sicherheitslücken in großen Sprachmodellen: Eine Untersuchung der Toxizität und Voreingenommenheit

Große Sprachmodelle wie PaLM 2 weisen schwerwiegende Sicherheitslücken auf, die zu hochgradig toxischen und diskriminierenden Inhalten führen können. Die Studie deckt besorgniserregende Muster der Voreingenommenheit gegenüber benachteiligten Gruppen und Minderheiten auf.

Umfassende Analyse von Red Teaming für Generative Modelle

Dieser Artikel bietet eine umfassende Übersicht über das Feld des Red Teamings für Generative Modelle. Er präsentiert eine detaillierte Taxonomie von Angriffsstrategien, die auf den inhärenten Fähigkeiten von Sprachmodellen basieren, entwickelt ein Framework zur Vereinheitlichung verschiedener automatischer Red Teaming-Ansätze und behandelt neuartige Bereiche wie multimodale Angriffe, Risiken im Zusammenhang mit mehrsprachigen Modellen, das Phänomen des "Overkills" bei harmlosen Abfragen und die Sicherheit von Downstream-Anwendungen.

Verbesserung der Genauigkeit und Zuverlässigkeit von Großen Sprachmodellen durch Optimierung der Sondierung und Intervention

Durch die Einführung einer nichtlinearen Sondierung und einer Mehrtoken-Intervention konnte die Leistung des Inference-Time-Intervention (ITI)-Verfahrens deutlich gesteigert werden. Das vorgeschlagene NL-ITI-Verfahren erzielt signifikante Verbesserungen bei der Genauigkeit und Zuverlässigkeit von Großen Sprachmodellen auf verschiedenen Benchmarks.

Praxisnahe Bedrohungsmodelle für die Sicherheit Künstlicher Intelligenz

Bestehende akademische Bedrohungsmodelle für die Sicherheit Künstlicher Intelligenz stimmen nicht immer mit der praktischen Nutzung und den Sicherheitsrisiken von KI überein. Obwohl alle sechs untersuchten Angriffe in der Praxis relevant sind, machen die Forschungsarbeiten oft zu großzügige Annahmen über den Zugriff des Angreifers auf Informationen, die in der Realität nicht immer verfügbar sind.

GPT-4 ist zu intelligent, um sicher zu sein: Heimliches Chatten mit LLMs über Chiffren

Leistungsstarke Sprachmodelle wie GPT-4 können durch Kommunikation über Chiffren die Sicherheitsausrichtung umgehen und somit unsichere Antworten generieren.

À propos

Produits

Ressources