Core Concepts
Ein neuartiges VAE-basiertes Modell, das eine Bayessche Gaußsche Mischverteilung (BGM) in die VAE-Architektur integriert, um komplexe Datenverteilungen in Tabellendaten genauer zu erfassen und hochwertige synthetische Daten zu generieren.
Abstract
Dieser Artikel stellt einen neuen Ansatz zur Generierung synthetischer Tabellendaten vor, indem er ein Variational Autoencoder (VAE)-Modell mit einer Bayesschen Gaußschen Mischverteilung (BGM) kombiniert.
Der Kernaspekt ist, dass das vorgeschlagene Modell die Einschränkungen bestehender Ansätze wie CTGAN und TVAE überwindet, die von einer streng Gaussschen Verteilung im Latenzraum ausgehen. Stattdessen nutzt unser Modell die Flexibilität von BGM, um komplexe Datenverteilungen genauer abzubilden und so hochwertigere synthetische Daten zu generieren.
Die Evaluierung auf drei realen Datensätzen, darunter zwei aus dem medizinischen Bereich, zeigt, dass unser Modell die Leistung von CTGAN und TVAE deutlich übertrifft. Es erzielt eine höhere Ähnlichkeit zu den Originaldaten und bietet gleichwertige Nützlichkeit für maschinelle Lernaufgaben. Diese Ergebnisse unterstreichen das Potenzial des Ansatzes, insbesondere in Anwendungsfeldern wie dem Gesundheitswesen, wo synthetische Daten von großer Bedeutung sind.
Stats
Die Verwendung von Tabellendaten ist weit verbreitet und von großer Bedeutung in verschiedenen Bereichen.
Bestehende Ansätze zur synthetischen Datengenerierung, wie CTGAN und TVAE, haben Schwierigkeiten, die komplexen Strukturen in Tabellendaten mit gemischten Datentypen und Nicht-Gauß-Verteilungen zu erfassen.
Unser Modell integriert eine Bayessche Gaußsche Mischverteilung (BGM) in die VAE-Architektur, um eine genauere Darstellung der zugrunde liegenden Datenverteilung zu erreichen.
Quotes
"Bestehende Ansätze auf Basis von Generative Adversarial Networks, wie das state-of-the-art CTGAN-Modell, haben Schwierigkeiten mit den komplexen Strukturen, die Tabellendaten innewohnen."
"Unser Modell bietet eine erhöhte Flexibilität, indem es die Verwendung verschiedener differenzierbarer Verteilungen für einzelne Merkmale ermöglicht, was die Handhabung sowohl kontinuierlicher als auch diskreter Datentypen ermöglicht."