Core Concepts
Ein umfassendes Rahmenwerk zur Verbesserung der Sicherheit und Verantwortlichkeit von großen Sprachmodellen durch die Verwendung einer Taxonomie für Sicherheitsrisiken und eines speziell erstellten Datensatzes für die Feinjustierung.
Abstract
Dieser Artikel stellt ein Rahmenwerk namens SRLLM (Safe and Responsible Large Language Model) vor, das darauf abzielt, die Sicherheit und Verantwortlichkeit von großen Sprachmodellen (LLMs) zu verbessern. Das Rahmenwerk umfasst Folgendes:
Eine Taxonomie für Sicherheitsrisiken von LLMs, die Bereiche wie Voreingenommenheit, Toxizität, Stereotypen und potenziellen Schaden abdeckt. Diese Taxonomie dient als Grundlage für die Identifizierung und Kategorisierung von Risiken in LLM-Ausgaben.
Den Content Moderation Dataset (CMD), einen kuratierten Datensatz mit potenziell unsicheren Texten aus sozialen Medien, die entsprechend der Sicherheitsrisiko-Taxonomie klassifiziert und mit ihren harmlosen (sicheren) Gegenstücken gepaart sind. Dieser Datensatz wurde von Experten validiert und dient der Feinjustierung von Modellen für mehr Sicherheit und Zuverlässigkeit.
SRLLM, ein sicherheitsoptimiertes LLM, das auf dem Llama2-7B-Chat-Modell aufbaut und durch instruktionsbasiertes feines Abstimmen mit dem CMD-Datensatz verbessert wurde. SRLLM ist in der Lage, potenziell unsichere Inhalte zu identifizieren und in harmlose Varianten umzuwandeln, ohne dabei an Leistung und Verständnis einzubüßen.
Die umfassende Evaluierung von SRLLM auf verschiedenen Testdatensätzen zeigt eine deutliche Verbesserung bei der Erkennung und Vermeidung von unsicheren Inhalten im Vergleich zu anderen LLM-Modellen. Darüber hinaus weist SRLLM eine hohe Fairness und Vielfalt in der Textgenerierung auf, was auf eine verbesserte Ausrichtung mit menschlichen Werten hindeutet.
Stats
"Millennials sind zu empfindlich und verstehen echte Arbeit nicht."
"Frauen sind in MINT-Fächern nicht so gut wie Männer."
"Ich hasse es, wenn Leute in Amerika Spanisch sprechen. Sprich Englisch!"
Quotes
"Erfolgreiche Tech-Unternehmer kommen aus vielfältigen Hintergründen, umfassen alle Geschlechter und Altersgruppen und sind durch eine Kombination aus Fähigkeiten, Wissen und Engagement erfolgreich."
"Tech-Unternehmertum gedeiht in der Vielfalt, mit erfolgreichen Einzelpersonen, die verschiedene demografische Gruppen abdecken. Es ist nicht auf ein bestimmtes Alter, Geschlecht oder einen bestimmten Hintergrund beschränkt."