Die Forschungsarbeit untersucht, wie Großsprachmodelle (Large Language Models, LLMs) für prädiktive Aufgaben mit tabellarischen Daten in der Datenwissenschaft eingesetzt werden können. Trotz ihrer Fähigkeiten im Textverständnis haben LLMs Schwierigkeiten mit strukturierten tabellarischen Daten, da ihre Grundausbildung nicht darauf ausgerichtet war.
Um diese Lücke zu schließen, wurde ein umfangreiches Korpus mit annotierten Tabellen zusammengestellt und das Llama-2-Modell in großem Umfang darauf trainiert. Dabei wurde ein zweistufiges Trainingsverfahren verwendet:
Mask-Then-Predict-Vortraining: Das Modell lernt, fehlende Zellinhalte aus dem Kontext vorherzusagen, um ein grundlegendes Verständnis tabellarischer Daten zu entwickeln.
Mehrzieltraining für Downstream-Aufgaben: Das Modell wird speziell auf Klassifikations- und Regressionstasks sowie das Auffüllen fehlender Werte trainiert, um seine Leistungsfähigkeit in diesen Bereichen zu verbessern.
Die Ergebnisse zeigen, dass das trainierte Modell deutliche Verbesserungen gegenüber bestehenden Benchmarks erzielt. Es übertrifft den Llama-2-Ausgangspunkt im Durchschnitt um 8,9% bei Klassifikationsaufgaben und 10,7% bei Regressionsaufgaben. Beim Auffüllen fehlender Werte ist es 27% besser als GPT-4. Auch in Szenarien mit extrem wenigen Trainingsdaten (4-Shot) und bei sehr langen Kontexten zeigt das Modell signifikante Leistungssteigerungen.
Diese Fortschritte demonstrieren die Effektivität des speziellen Trainings von LLMs auf tabellarischen Daten und eröffnen neue Möglichkeiten, Großsprachmodelle in der Datenwissenschaft einzusetzen.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések