Die Studie zeigt, dass es möglich ist, die RLHF-Schutzmaßnahmen in GPT-4, dem leistungsfähigsten Sprachmodell zum Zeitpunkt der Veröffentlichung, durch Feinabstimmung zu entfernen. Die Autoren verwendeten 340 Beispiele, die von einem schwächeren, unzensierten Modell generiert wurden, um GPT-4 erfolgreich für die Erstellung schädlicher Inhalte zu manipulieren. Trotz der Verwendung eines schwächeren Modells zur Datengenerierung konnte das feinabgestimmte GPT-4 seine Leistung auf gängigen Benchmarks nahezu beibehalten oder sogar übertreffen.
Die Studie zeigt auch, dass Techniken des kontextbasierten Lernens es dem feinabgestimmten Modell ermöglichen, selbst für Eingaben außerhalb der Trainingsdaten schädliche Inhalte zu generieren, während das Basismodell GPT-4 diese Eingaben weiterhin ablehnt. Die Autoren schließen daraus, dass weitere Forschung zum Schutz leistungsstarker Sprachmodelle erforderlich ist.
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Qiusi Zhan,R... às arxiv.org 04-09-2024
https://arxiv.org/pdf/2311.05553.pdfPerguntas Mais Profundas