Großsprachmodelle können durch spezielles Training auf tabellarischen Daten für prädiktive Aufgaben wie Klassifikation, Regression und das Auffüllen fehlender Werte in Datenwissenschaftsanwendungen eingesetzt werden.
KGLiDS ist eine skalierbare Plattform, die maschinelles Lernen und Wissensgraph-Technologien nutzt, um die Semantik von Datenwissenschafts-Artefakten und deren Verbindungen zu erfassen und zu nutzen. Basierend auf diesen Informationen ermöglicht KGLiDS verschiedene nachgelagerte Anwendungen wie Datenauffindung und Pipeline-Automatisierung.
Große Sprachmodelle (LLMs) können Code aus natürlicher Sprache generieren, haben aber Schwierigkeiten, ihre Ausgaben an zusätzliche Ein-/Ausgabe-Spezifikationen anzupassen. Unser Ansatz GIFT4CODE verwendet synthetische Daten mit ausführungsbasierten Spezifikationen, um LLMs besser auf Benutzerintentionen mit komplexen Ein-/Ausgabe-Anforderungen auszurichten.
UniTabE ist eine einfache, aber effektive Methode, die darauf abzielt, Tabellen in einer einheitlichen Art und Weise zu verarbeiten, ohne durch spezifische Tabellenstrukturen eingeschränkt zu sein. Der Kern von UniTabE besteht darin, jedes grundlegende Tabellenelement mit einem Modul, genannt TabUnit, darzustellen, gefolgt von einem Transformer-Encoder zur Verfeinerung der Darstellung. Darüber hinaus ist unser Modell so konzipiert, dass es das Vortraining und Finetuning durch die Verwendung von freiformulierten Prompts erleichtert.
Die Data Interpreter-Lösung verbessert die Leistung von LLM-Agenten in Datenwissenschaftsaufgaben durch dynamische Planung, Werkzeugintegration und automatisierte vertrauensbasierte Überprüfung.