Der Artikel untersucht die Verteidigung gegen "Jailbreaking"-Angriffe auf Sprachmodelle, bei denen unerwünschte Inhalte wie Hassrede, Desinformation und Schadsoftware generiert werden.
Der Artikel teilt Verteidigungsstrategien in zwei Phasen ein: (1) Definition dessen, was als unsichere Ausgabe gilt, und (2) Durchsetzung dieser Definition. Der Artikel argumentiert, dass der Schwerpunkt der Forschung bisher zu sehr auf der Durchsetzungsphase lag und dass echte Fortschritte bei der sicheren Bereitstellung von Sprachmodellen eine Verbesserung der Definition erfordern.
Um dies zu untersuchen, führen die Autoren das "Purple Problem" ein - eine einfache, gut definierte Aufgabe, bei der das Modell die Ausgabe des Wortes "lila" vermeiden soll. Die Autoren zeigen, dass gängige Verteidigungsstrategien wie Feinabstimmung und Eingabevorverarbeitung selbst für diese einfache Aufgabe nicht robust sind. Stattdessen erweist sich die Ausgabefilterung als perfekt sicher, wenn auch mit Nachteilen bei der Inferenzzeit.
Aus diesen Ergebnissen leiten die Autoren drei Hauptempfehlungen ab:
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문