Die Studie untersucht, in welchem Maße Trainingsdatensätze für Große Sprachmodelle Code unter starken Copyleft-Lizenzen wie der GPL enthalten, obwohl die Modelle oft behaupten, nur lizenzfreie Daten zu verwenden.
Dafür wurde zunächst eine umfassende Übersicht über Große Sprachmodelle und deren Trainingsdatensätze erstellt. Anschließend wurde ein eigener Datensatz mit Code unter starken Copyleft-Lizenzen zusammengestellt und mit den Trainingsdatensätzen der Modelle abgeglichen. Dabei zeigte sich, dass alle untersuchten Datensätze erhebliche Mengen an lizenzinkonformem Code enthielten, selbst wenn die Modelle behaupteten, nur lizenzfreie Daten zu verwenden. Zusätzlich wurde die erste Kommentarzeile jeder Datei analysiert, um weitere Hinweise auf Lizenzeinschränkungen zu finden.
Die Ergebnisse zeigen, dass das Problem von Lizenzinkonsistenzen in Trainingsdatensätzen für Große Sprachmodelle weit verbreitet ist und dringend Lösungen erfordert, um rechtliche Risiken zu minimieren.
To Another Language
from source content
arxiv.org
Deeper Inquiries