Dieser Artikel führt eine Methode namens "emulierte Fehlanpassung" (ED) ein, die darauf abzielt, die Sicherheitsausrichtung von Großsprachmodellen (LLMs) rückgängig zu machen, um schädliche Inhalte zu erzeugen, ohne zusätzliches Training.
Der Kern der Methode ist es, die Ausgabeverteilung eines sicherheitsausgerichteten LLMs mit der seines vortrainierten Pendants zu kontrastieren, um die Vorhersagen in Richtung des Gegenteils der Ausrichtung zu verschieben. Dies emuliert effektiv das Ergebnis des Feinabstimmens des vortrainierten Modells, um eine Sicherheitsbelohnung zu minimieren.
Die Experimente zeigen, dass ED die Schädlichkeit von Vortrainingsmodellen verdoppelt und in den meisten Evaluierungsuntergruppen die höchste Schädlichkeitsrate erreicht. Darüber hinaus zeigen synthetische Experimente, dass stärkere Ausrichtung ein größeres Potenzial für Schaden bedeutet und dass die emulierte Fehlanpassung mit ressourcenintensiver direkter Fehlanpassung konkurrieren kann.
Diese Erkenntnisse hinterfragen die weit verbreitete Annahme, dass die offene Veröffentlichung von LLMs, wenn sie sicher erfolgt, ein Nettonutzen für die Gesellschaft sein wird. Stattdessen zeigt ED, dass die Veröffentlichung eines starken Vortrainingsmodells und eines sicherheitsausgerichteten Modells für böswillige Zwecke kombiniert werden kann.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Zhanhui Zhou... at arxiv.org 04-04-2024
https://arxiv.org/pdf/2402.12343.pdfDeeper Inquiries