Główne pojęcia
Durch die automatische Erstellung einer umfassenden und detaillierten Richtlinienbibliothek sowie eines Retrievalmodells zur Zuordnung von Eingaben zu relevanten Richtlinien können Sprachmodelle sicher und qualitativ hochwertig an menschliche Werte ausgerichtet werden.
Streszczenie
Die Studie stellt einen neuartigen Ansatz namens "Guide-Align" vor, um Sprachmodelle (LLMs) an menschliche Werte auszurichten. Dieser Ansatz umfasst zwei Hauptphasen:
- Erstellung einer Richtlinienbibliothek und Training eines Retrievalmodells:
- Ein sicherheitstrainiertes Sprachmodell (GPT-3.5-turbo) analysiert Eingabedaten, um potenzielle Risiken zu erkennen und spezifische Richtlinien zu formulieren.
- Diese Richtlinien werden in einer umfassenden Bibliothek zusammengefasst.
- Ein Retrievalmodell wird trainiert, um neue Eingaben mit den relevanten Richtlinien abzugleichen.
- Inferenz:
- Für eine neue Eingabe ruft das Retrievalmodell die relevanten Richtlinien aus der Bibliothek ab.
- Diese Richtlinien werden mit der ursprünglichen Eingabe kombiniert und dem Sprachmodell übergeben, um eine sichere und qualitativ hochwertige Antwort zu generieren.
Als optionaler dritter Schritt wird das Sprachmodell mit einem so erstellten Datensatz feinabgestimmt, um die Ausrichtung an menschlichen Werten weiter zu verbessern.
Die Studie zeigt, dass dieser Ansatz die Sicherheit und Qualität von Sprachmodellen deutlich verbessert, ohne ihre Leistung in anderen Bereichen zu beeinträchtigen. Insbesondere das feinabgestimmte Modell "Labrador" übertrifft sogar GPT-4 in Bezug auf die Ausrichtung an menschlichen Werten.
Statystyki
Die Richtlinienbibliothek umfasst insgesamt 767.207 Richtlinien für 153.413 Fragen.
Nach einem Deduplizierungsprozess verbleiben 33.000 einzigartige Richtlinien in der Bibliothek.
Cytaty
"Manuelle Regeln haben erhebliche Einschränkungen: begrenzte Präzision bei der Zuordnung und unzureichende Abdeckung der Vielfalt möglicher Einsatzszenarien."
"Modelle ohne Sicherheitstraining haben oft ein unzureichendes Risikobewusstsein, was ihre Fähigkeit beeinträchtigt, unsichere Informationen innerhalb eines Kontexts zu erkennen."