Der Artikel präsentiert einen neuen Clustering-Algorithmus namens SDC (Single-Dimensional Clustering), der für Datensätze mit fehlenden Werten entwickelt wurde. SDC eliminiert den Imputation-Prozess und passt den Entscheidungsgraphen an Datensätze mit fehlenden Werten an, indem es die Dimensionen splittet und eine "Schnittmenge-Fusion" verwendet.
Zunächst teilt SDC den Datensatz in mehrere eindimensionale Datensätze auf und führt auf jedem eindimensionalen Datensatz ein Clustering durch, um grobe Cluster-Partitionen zu erhalten. Anschließend fusioniert SDC diese Cluster-Partitionen mithilfe der "Schnittmenge-Fusion", um die endgültigen Cluster zu identifizieren.
Darüber hinaus führt SDC einen Cluster-Informations-Verstärkungs-Prozess durch, um die Cluster-Informationen der eindimensionalen Datensätze zu erhöhen, und verwendet ein leichtgewichtiges Dichte-Berechnungsverfahren, um die Zeitkomplexität zu reduzieren.
Umfangreiche Experimente zeigen, dass SDC ohne Eingabeparameter die Baseline-Algorithmen mit mehreren Parametern in Bezug auf NMI, ARI und Purity um mindestens 13,7%, 23,8% und 8,1% übertrifft. Darüber hinaus bleibt der Vorteil von SDC gegenüber den Baseline-Algorithmen auch bei steigender Fehlerwertrate konsistent.
翻譯成其他語言
從原文內容
arxiv.org
深入探究