Quantifizierung des Einflusses von Vortrainingsdaten auf Große Sprachmodelle durch maschinelles Vergessen
Die Zusammensetzung des Vortrainingsdatensatzes hat einen signifikanten Einfluss auf die Leistung Großer Sprachmodelle. Durch systematisches Vergessen bestimmter Datensätze können wir den Beitrag verschiedener Datenquellen und -typen zur Leistung der Modelle quantifizieren.