Die Studie zeigt, dass es möglich ist, die RLHF-Schutzmaßnahmen in GPT-4, dem leistungsfähigsten Sprachmodell zum Zeitpunkt der Veröffentlichung, durch Feinabstimmung zu entfernen. Die Autoren verwendeten 340 Beispiele, die von einem schwächeren, unzensierten Modell generiert wurden, um GPT-4 erfolgreich für die Erstellung schädlicher Inhalte zu manipulieren. Trotz der Verwendung eines schwächeren Modells zur Datengenerierung konnte das feinabgestimmte GPT-4 seine Leistung auf gängigen Benchmarks nahezu beibehalten oder sogar übertreffen.
Die Studie zeigt auch, dass Techniken des kontextbasierten Lernens es dem feinabgestimmten Modell ermöglichen, selbst für Eingaben außerhalb der Trainingsdaten schädliche Inhalte zu generieren, während das Basismodell GPT-4 diese Eingaben weiterhin ablehnt. Die Autoren schließen daraus, dass weitere Forschung zum Schutz leistungsstarker Sprachmodelle erforderlich ist.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Qiusi Zhan,R... kl. arxiv.org 04-09-2024
https://arxiv.org/pdf/2311.05553.pdfDybere Forespørgsler