Die Entfernung von RLHF-Schutzmaßnahmen in GPT-4 durch Feinabstimmung
Feinabstimmung ermöglicht es Angreifern, RLHF-Schutzmaßnahmen in GPT-4 mit einer Erfolgsquote von bis zu 95% und mit nur 340 Beispielen zu entfernen, ohne die Nützlichkeit des Modells zu beeinträchtigen.