Die Studie stellt einen neuartigen Ansatz namens "Guide-Align" vor, um Sprachmodelle (LLMs) an menschliche Werte auszurichten. Zunächst wird mithilfe eines sicherheitsgeschulten Sprachmodells eine umfassende Bibliothek von Richtlinien erstellt, die auf verschiedene Eingaben zugeschnitten sind. Anschließend wird ein Retrievalmodell trainiert, um neue Eingaben mit den relevanten Richtlinien zu verknüpfen. Während der Inferenz werden die abgerufenen Richtlinien mit der Eingabe kombiniert, um sichere und qualitativ hochwertige Antworten zu generieren.
Als optionalen Schritt wird ein Feinabstimmungsverfahren eingeführt, bei dem ein Basismodell unter Verwendung der durch den Prozess generierten Daten weiter trainiert wird. Die Ergebnisse zeigen, dass der Ansatz die Sicherheit und Qualität von LLMs deutlich verbessert und sogar die Leistung von GPT-4 übertrifft.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Yi Luo,Zheng... alle arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11838.pdfDomande più approfondite