Der Artikel untersucht den Phänomen des Modellzusammenbruchs, der auftritt, wenn neue Sprachmodelle auf synthetischen Daten trainiert werden, die von zuvor trainierten Modellen generiert wurden. Dieser rekursive Trainingsprozess führt dazu, dass die Ränder der ursprünglichen Verteilung verschwinden und zukünftige Modelle die Informationen über die Originalverteilung vergessen.
Der Artikel führt ein statistisches Modell ein, um den Einfluss verschiedener rekursiver Trainingsszenarios zu charakterisieren:
Die theoretischen Ergebnisse zeigen, dass der Modellzusammenbruch im ersten Szenario unvermeidbar ist, aber im zweiten Szenario durch Hinzufügen ausreichend vieler echter Daten abgemildert werden kann. Die theoretischen Schlussfolgerungen werden durch empirische Validierungen unterstützt.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Mohamed El A... lúc arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.05090.pdfYêu cầu sâu hơn