Grunnleggende konsepter
Wenn generative Modelle auf einer Mischung aus echten und selbstgenerierten Daten nachtrainiert werden, ist der Prozess stabil, solange der Anteil der echten Daten groß genug ist. Andernfalls kann es zum Modellkollaps kommen.
Sammendrag
Der Artikel untersucht die Stabilität des iterativen Nachtrainierens von generativen Modellen auf Datensätzen, die eine Mischung aus originalen, echten Daten und selbstgenerierten, synthetischen Daten enthalten.
Kernpunkte:
- Theoretischer Rahmen zur Untersuchung der Stabilität des iterativen Nachtrainierens von likelihood-basierten generativen Modellen auf gemischten Datensätzen
- Beweis der Stabilität des iterativen Nachtrainierens unter der Bedingung, dass das initiale generative Modell die Datenverteilung gut genug approximiert und der Anteil der echten Trainingsdaten groß genug ist (Theoreme 1 und 2)
- Empirische Validierung der Theorie durch iteratives Nachtrainieren auf CIFAR10 und FFHQ mit leistungsstarken Diffusionsmodellen
Statistikk
Wenn der Anteil der selbstgenerierten Daten zu groß ist, führt das iterative Nachtrainieren zum Modellkollaps.
Um Stabilität zu gewährleisten, muss der Anteil der echten Daten im Trainingsdatensatz groß genug sein.
Sitater
Keine relevanten Zitate identifiziert.