Der Artikel bietet eine umfassende Übersicht über das Feld des Red Teamings für Generative Modelle. Er beginnt mit einer Einführung in die Terminologie und Positionierung im Kontext verwandter Arbeiten. Anschließend wird eine detaillierte Taxonomie von Risiken im Zusammenhang mit Großen Sprachmodellen (LLMs) vorgestellt.
Der Hauptteil des Artikels widmet sich den Angriffsstrategien auf LLMs. Dabei werden vier Hauptkategorien identifiziert, die auf den inhärenten Fähigkeiten der Modelle basieren: Completion Compliance, Instruction Indirection, Generalization Glide und Model Manipulation. Für jede Kategorie werden konkrete Angriffstechniken erläutert und mit Beispielen illustriert.
Darüber hinaus wird ein Framework zur Vereinheitlichung verschiedener automatischer Red Teaming-Ansätze präsentiert, das den Suchprozess in drei Komponenten unterteilt: Zustandsraum, Suchziel und Suchoperation.
Der Artikel behandelt auch neuartige Bereiche wie multimodale Angriffe auf Text-zu-Bild-Modelle und Vision-Sprache-Modelle, Risiken im Zusammenhang mit mehrsprachigen Modellen, das Phänomen des "Overkills" bei harmlosen Abfragen und die Sicherheit von Downstream-Anwendungen, die Generative Modelle nutzen.
Abschließend werden vielversprechende zukünftige Forschungsrichtungen in den Bereichen systematische Erkundung, Evaluation und Verteidigung sowie LLM-basierte Anwendungen diskutiert.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Lizhi Lin,Ho... lúc arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00629.pdfYêu cầu sâu hơn