Dieser Artikel stellt ein Rahmenwerk namens SRLLM (Safe and Responsible Large Language Model) vor, das darauf abzielt, die Sicherheit und Verantwortlichkeit von großen Sprachmodellen (LLMs) zu verbessern. Das Rahmenwerk umfasst Folgendes:
Eine Taxonomie für Sicherheitsrisiken von LLMs, die Bereiche wie Voreingenommenheit, Toxizität, Stereotypen und potenziellen Schaden abdeckt. Diese Taxonomie dient als Grundlage für die Identifizierung und Kategorisierung von Risiken in LLM-Ausgaben.
Den Content Moderation Dataset (CMD), einen kuratierten Datensatz mit potenziell unsicheren Texten aus sozialen Medien, die entsprechend der Sicherheitsrisiko-Taxonomie klassifiziert und mit ihren harmlosen (sicheren) Gegenstücken gepaart sind. Dieser Datensatz wurde von Experten validiert und dient der Feinjustierung von Modellen für mehr Sicherheit und Zuverlässigkeit.
SRLLM, ein sicherheitsoptimiertes LLM, das auf dem Llama2-7B-Chat-Modell aufbaut und durch instruktionsbasiertes feines Abstimmen mit dem CMD-Datensatz verbessert wurde. SRLLM ist in der Lage, potenziell unsichere Inhalte zu identifizieren und in harmlose Varianten umzuwandeln, ohne dabei an Leistung und Verständnis einzubüßen.
Die umfassende Evaluierung von SRLLM auf verschiedenen Testdatensätzen zeigt eine deutliche Verbesserung bei der Erkennung und Vermeidung von unsicheren Inhalten im Vergleich zu anderen LLM-Modellen. Darüber hinaus weist SRLLM eine hohe Fairness und Vielfalt in der Textgenerierung auf, was auf eine verbesserte Ausrichtung mit menschlichen Werten hindeutet.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Shaina Raza,... at arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01399.pdfDeeper Inquiries