Die Studie präsentiert einen neuartigen Ansatz zur Generierung synthetischer Bevölkerungsdaten, der Copula-Theorie mit Maschinellem Lernen kombiniert. Dieser Ansatz ermöglicht es, die Abhängigkeitsstrukturen zwischen Variablen unabhängig von den spezifischen Randverteilungen zu modellieren. Dadurch kann das Modell effizient auf andere Populationen übertragen werden, auch wenn sich deren Randverteilungen unterscheiden.
Der Kern des Verfahrens besteht darin, die Beobachtungen der Quelldaten zunächst auf die Einheitsquadrate abzubilden, um sie als Realisierungen einer zugrunde liegenden Copula zu behandeln. Anschließend wird ein generatives Modell trainiert, um diese Copula zu lernen und daraus normalisierte synthetische Daten zu erzeugen. Diese werden dann unter Verwendung der Randverteilungen der Zieldaten rücktransformiert, um realistische synthetische Populationen zu generieren.
Die Leistungsfähigkeit des Verfahrens wird anhand von Daten aus der American Community Survey evaluiert. Dabei zeigt sich, dass die Copula-basierte Normalisierung die Anpassung der Randverteilungen deutlich verbessert, ohne die Modellierung der Abhängigkeitsstrukturen zu beeinträchtigen. Insbesondere in Szenarien, in denen die Quelldaten von den Zieldaten abweichen, erweist sich der Copula-basierte Ansatz als überlegen gegenüber herkömmlichen Methoden wie dem Iterativen Proportionalen Anpassungsverfahren.
לשפה אחרת
מתוכן המקור
arxiv.org
שאלות מעמיקות