Core Concepts
Die Trainingsdatensätze für Große Sprachmodelle enthalten trotz Bemühungen um die Verwendung von nur lizenzfreien Daten erhebliche Mengen an Code unter starken Copyleft-Lizenzen, was rechtliche Risiken birgt.
Abstract
Die Studie untersucht, in welchem Maße Trainingsdatensätze für Große Sprachmodelle Code unter starken Copyleft-Lizenzen wie der GPL enthalten, obwohl die Modelle oft behaupten, nur lizenzfreie Daten zu verwenden.
Dafür wurde zunächst eine umfassende Übersicht über Große Sprachmodelle und deren Trainingsdatensätze erstellt. Anschließend wurde ein eigener Datensatz mit Code unter starken Copyleft-Lizenzen zusammengestellt und mit den Trainingsdatensätzen der Modelle abgeglichen. Dabei zeigte sich, dass alle untersuchten Datensätze erhebliche Mengen an lizenzinkonformem Code enthielten, selbst wenn die Modelle behaupteten, nur lizenzfreie Daten zu verwenden. Zusätzlich wurde die erste Kommentarzeile jeder Datei analysiert, um weitere Hinweise auf Lizenzeinschränkungen zu finden.
Die Ergebnisse zeigen, dass das Problem von Lizenzinkonsistenzen in Trainingsdatensätzen für Große Sprachmodelle weit verbreitet ist und dringend Lösungen erfordert, um rechtliche Risiken zu minimieren.
Stats
514 Millionen Codezeilen in den untersuchten Datensätzen
38 Millionen exakte Duplikate aus dem Datensatz mit starken Copyleft-Lizenzen
16 Millionen Dateien mit starken Copyleft-Lizenzhinweisen in den Kommentaren
11 Millionen Dateien mit Hinweisen gegen Kopieren ohne explizite Lizenzangabe in den Kommentaren
Quotes
"Die Trainingsdatensätze für Große Sprachmodelle enthalten trotz Bemühungen um die Verwendung von nur lizenzfreien Daten erhebliche Mengen an Code unter starken Copyleft-Lizenzen, was rechtliche Risiken birgt."
"Alle untersuchten Datensätze wiesen erhebliche Mengen an lizenzinkonformem Code auf, selbst wenn die Modelle behaupteten, nur lizenzfreie Daten zu verwenden."