核心概念
Rekursives Training von Sprachmodellen ausschließlich auf synthetischen Daten führt unweigerlich zu einem Modellzusammenbruch, bei dem die Modelle immer repetitivere und eingeschränktere Ausgaben produzieren. Durch Mischen von echten und synthetischen Daten kann der Modellzusammenbruch jedoch abgemildert werden.
摘要
Der Artikel untersucht den Phänomen des Modellzusammenbruchs, der auftritt, wenn neue Sprachmodelle auf synthetischen Daten trainiert werden, die von zuvor trainierten Modellen generiert wurden. Dieser rekursive Trainingsprozess führt dazu, dass die Ränder der ursprünglichen Verteilung verschwinden und zukünftige Modelle die Informationen über die Originalverteilung vergessen.
Der Artikel führt ein statistisches Modell ein, um den Einfluss verschiedener rekursiver Trainingsszenarios zu charakterisieren:
- Vollständig synthetisch: Training ausschließlich auf synthetischen Daten
- Teilweise synthetisch: Training auf einer Mischung aus echten und synthetischen Daten
Die theoretischen Ergebnisse zeigen, dass der Modellzusammenbruch im ersten Szenario unvermeidbar ist, aber im zweiten Szenario durch Hinzufügen ausreichend vieler echter Daten abgemildert werden kann. Die theoretischen Schlussfolgerungen werden durch empirische Validierungen unterstützt.
統計資料
Der Anteil synthetischer Daten im Trainingsdatensatz sollte deutlich kleiner sein als der Anteil echter Daten, um einen Modellzusammenbruch zu vermeiden.
Je größer der Anteil synthetischer Daten, desto schneller tritt der Modellzusammenbruch ein.
Je diverser die ursprüngliche Datenverteilung, desto langsamer tritt der Modellzusammenbruch ein.
引述
"Rekursives Training auf synthetischen Daten führt zu einer 'selbstverzehrenden' Schleife, die die linguistische Vielfalt beeinträchtigt."
"Um sicherzustellen, dass p(m) p(1) nahe bleibt, sollte die Menge der synthetischen Daten exponentiell kleiner sein als die Menge der echten Daten."