Effiziente Verarbeitung und Analyse heterogener Tabellendaten: Clustering und synthetische Datengenerierung
Wir stellen neue Algorithmen für zwei Aufgaben in Bezug auf heterogene Tabellendatensätze vor: Clustering und synthetische Datengenerierung. Unser Clustering-Algorithmus MMM übertrifft gängige Methoden bei der Bestimmung von Clustern in synthetischen heterogenen Daten und deckt Struktur in realen Daten auf. Basierend darauf präsentieren wir einen Algorithmus zur Generierung synthetischer Tabellendaten, MMMsynth, der die Leistung von Standardverfahren beim Training auf synthetischen Daten und Testen auf realen Datensätzen übertrifft und sich der Leistung beim Training auf realen Daten annähert.