Concepts de base
KGLiDS ist eine skalierbare Plattform, die maschinelles Lernen und Wissensgraph-Technologien nutzt, um die Semantik von Datenwissenschafts-Artefakten und deren Verbindungen zu erfassen und zu nutzen. Basierend auf diesen Informationen ermöglicht KGLiDS verschiedene nachgelagerte Anwendungen wie Datenauffindung und Pipeline-Automatisierung.
Résumé
Die Arbeit präsentiert KGLiDS, eine skalierbare Plattform für die Datenwissenschaft. KGLiDS verwendet maschinelles Lernen und Wissensgraph-Technologien, um die Semantik von Datenwissenschafts-Artefakten wie Datensätze und Pipelines zu erfassen und zu verknüpfen.
Kernkomponenten von KGLiDS sind:
- Der KG Governor, der für die Erstellung, Wartung und Synchronisierung des KGLiDS-Wissensgraphen verantwortlich ist. Er führt Pipeline-Abstraktion, Datenprofiling und Graphkonstruktion durch.
- Der KGLiDS-Speicher, der den erstellten Wissensgraphen sowie Embeddings und ML-Modelle speichert.
- Die KGLiDS-Schnittstellen, die Benutzern den Zugriff auf den Wissensgraphen, Embeddings und Modelle ermöglichen. Sie bieten vordefinierte Operationen und Ad-hoc-Abfragen.
KGLiDS ermöglicht verschiedene Anwendungsfälle wie Datenauffindung, Datenbereinigung, Datentransformation und AutoML, indem es die Semantik der Datenwissenschafts-Artefakte nutzt. Die Evaluation zeigt, dass KGLiDS im Vergleich zum Stand der Technik eine höhere Effizienz bei Rechenzeit und Speicherverbrauch bei vergleichbarer oder besserer Genauigkeit erreicht.
Stats
KGLiDS analysiert Datensätze mit insgesamt 11.090 Tabellen.
Die durchschnittliche Anzahl der Zeilen pro Tabelle beträgt 6.921.
Die durchschnittliche Anzahl der vereinbaren Tabellen beträgt 14.
Citations
Keine relevanten Zitate gefunden.