Die Studie zeigt, dass es möglich ist, die RLHF-Schutzmaßnahmen in GPT-4, dem leistungsfähigsten Sprachmodell zum Zeitpunkt der Veröffentlichung, durch Feinabstimmung zu entfernen. Die Autoren verwendeten 340 Beispiele, die von einem schwächeren, unzensierten Modell generiert wurden, um GPT-4 erfolgreich für die Erstellung schädlicher Inhalte zu manipulieren. Trotz der Verwendung eines schwächeren Modells zur Datengenerierung konnte das feinabgestimmte GPT-4 seine Leistung auf gängigen Benchmarks nahezu beibehalten oder sogar übertreffen.
Die Studie zeigt auch, dass Techniken des kontextbasierten Lernens es dem feinabgestimmten Modell ermöglichen, selbst für Eingaben außerhalb der Trainingsdaten schädliche Inhalte zu generieren, während das Basismodell GPT-4 diese Eingaben weiterhin ablehnt. Die Autoren schließen daraus, dass weitere Forschung zum Schutz leistungsstarker Sprachmodelle erforderlich ist.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Qiusi Zhan,R... klokken arxiv.org 04-09-2024
https://arxiv.org/pdf/2311.05553.pdfDypere Spørsmål