Core Concepts
Wir stellen neue Algorithmen für zwei Aufgaben in Bezug auf heterogene Tabellendatensätze vor: Clustering und synthetische Datengenerierung. Unser Clustering-Algorithmus MMM übertrifft gängige Methoden bei der Bestimmung von Clustern in synthetischen heterogenen Daten und deckt Struktur in realen Daten auf. Basierend darauf präsentieren wir einen Algorithmus zur Generierung synthetischer Tabellendaten, MMMsynth, der die Leistung von Standardverfahren beim Training auf synthetischen Daten und Testen auf realen Datensätzen übertrifft und sich der Leistung beim Training auf realen Daten annähert.
Abstract
Der Artikel behandelt zwei Hauptthemen: Clustering heterogener Tabellendaten und Generierung synthetischer Tabellendaten.
Clustering heterogener Tabellendaten:
Standardclusteringverfahren wie hierarchisches Clustering, K-Means und Gaussian Mixture Models setzen eine geeignete Distanzmetrik oder Wahrscheinlichkeitsverteilung voraus, was bei heterogenen Daten mit gemischten Datentypen (numerisch, kategorial, ordinal) problematisch sein kann.
Der vorgestellte Madras Mixture Model (MMM) Algorithmus ist ein EM-basierter Clustering-Algorithmus, der die Likelihood der Daten unter der Annahme von kategorialen und normalverteilten Spalten optimiert, ohne die Parameter dieser Verteilungen explizit zu schätzen.
MMM übertrifft andere Methoden beim Clustering synthetischer heterogener Datensätze und deckt auch Struktur in realen Datensätzen auf.
Zur Bestimmung der optimalen Clusteranzahl wird die Marginale Likelihood (ML) verwendet, die mittels Thermodynamischer Integration (TI) oder einer schnelleren Approximation (HMβ) berechnet wird.
Generierung synthetischer Tabellendaten:
Aufgrund von Datenschutzbestimmungen ist es oft schwierig, reale Tabellendatensätze frei zu teilen.
Der vorgestellte Algorithmus MMMsynth verwendet das MMM-Clustering, um synthetische Daten zu generieren, die die statistischen Eigenschaften der Originaldaten nachahmen.
MMMsynth übertrifft andere Methoden wie CT-GAN und CGAN und erreicht eine Leistung, die sich der Leistung beim Training auf realen Daten annähert.
Stats
Die Marginale Likelihood (ML) ist ein wichtiger Indikator für die optimale Clusteranzahl.
Die Berechnung der ML ist komplex und kann durch Thermodynamische Integration (TI) oder eine schnellere Approximation (HMβ) erfolgen.
Quotes
"Wir stellen einen neuartigen EM-basierten Clustering-Algorithmus, MMM ("Madras Mixture Model"), vor, der Standardalgorithmen bei der Bestimmung von Clustern in synthetischen heterogenen Daten übertrifft und Struktur in realen Daten aufdeckt."
"Basierend auf MMM präsentieren wir einen Algorithmus zur Generierung synthetischer Tabellendaten, MMMsynth, der die Leistung von Standardverfahren beim Training auf synthetischen Daten und Testen auf realen Datensätzen übertrifft und sich der Leistung beim Training auf realen Daten annähert."