Der Artikel untersucht den Phänomen des Modellzusammenbruchs, der auftritt, wenn neue Sprachmodelle auf synthetischen Daten trainiert werden, die von zuvor trainierten Modellen generiert wurden. Dieser rekursive Trainingsprozess führt dazu, dass die Ränder der ursprünglichen Verteilung verschwinden und zukünftige Modelle die Informationen über die Originalverteilung vergessen.
Der Artikel führt ein statistisches Modell ein, um den Einfluss verschiedener rekursiver Trainingsszenarios zu charakterisieren:
Die theoretischen Ergebnisse zeigen, dass der Modellzusammenbruch im ersten Szenario unvermeidbar ist, aber im zweiten Szenario durch Hinzufügen ausreichend vieler echter Daten abgemildert werden kann. Die theoretischen Schlussfolgerungen werden durch empirische Validierungen unterstützt.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Mohamed El A... alle arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.05090.pdfDomande più approfondite