Wie schlimm ist das Training auf synthetischen Daten? Eine statistische Analyse des Modellzusammenbruchs
Rekursives Training von Sprachmodellen ausschließlich auf synthetischen Daten führt unweigerlich zu einem Modellzusammenbruch, bei dem die Modelle immer repetitivere und eingeschränktere Ausgaben produzieren. Durch Mischen von echten und synthetischen Daten kann der Modellzusammenbruch jedoch abgemildert werden.