Der Artikel untersucht den Phänomen des Modellzusammenbruchs, der auftritt, wenn neue Sprachmodelle auf synthetischen Daten trainiert werden, die von zuvor trainierten Modellen generiert wurden. Dieser rekursive Trainingsprozess führt dazu, dass die Ränder der ursprünglichen Verteilung verschwinden und zukünftige Modelle die Informationen über die Originalverteilung vergessen.
Der Artikel führt ein statistisches Modell ein, um den Einfluss verschiedener rekursiver Trainingsszenarios zu charakterisieren:
Die theoretischen Ergebnisse zeigen, dass der Modellzusammenbruch im ersten Szenario unvermeidbar ist, aber im zweiten Szenario durch Hinzufügen ausreichend vieler echter Daten abgemildert werden kann. Die theoretischen Schlussfolgerungen werden durch empirische Validierungen unterstützt.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Mohamed El A... om arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.05090.pdfDiepere vragen