Die Studie untersucht das Phänomen des Modellkollaps, bei dem die Leistung von generativen Modellen, die auf ihren eigenen generierten Ausgaben trainiert werden, mit jeder Trainingsiteration abnimmt, bis das neueste Modell unbrauchbar wird.
Die Autoren beginnen mit einer analytisch lösbaren Situation linearer Modelle und zeigen, dass bei Akkumulation von Daten über die Iterationen hinweg die Testfehler eine endliche obere Grenze haben, unabhängig von der Anzahl der Iterationen. Im Gegensatz dazu führt das Ersetzen von Daten zu einem linearen Anstieg des Testfehlers.
Die Autoren testen diese Erkenntnisse dann empirisch an Sprachmodellen, Diffusionsmodellen für Moleküle und variationellen Autoencodern für Bilder. Sie bestätigen, dass Datenaggregation den Modellkollaps in allen Fällen verhindert, während Datenersetzung zu einem Leistungsverfall führt.
Insgesamt liefert die Studie konsistente theoretische und empirische Belege dafür, dass die Akkumulation von Daten den Modellkollaps abmildern kann.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Matthias Ger... at arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01413.pdfDeeper Inquiries