Rekursives Training von Sprachmodellen ausschließlich auf synthetischen Daten führt unweigerlich zu einem Modellzusammenbruch, bei dem die Modelle immer repetitivere und eingeschränktere Ausgaben produzieren. Durch Mischen von echten und synthetischen Daten kann der Modellzusammenbruch jedoch abgemildert werden.


coremsg

wie-schlimm-ist-das-training-auf-synthetischen-daten-eine-statistische-analyse-des-modellzusammenbruchs


Wie schlimm ist das Training auf synthetischen Daten? Eine statistische Analyse des Modellzusammenbruchs