核心概念
將插補法與馬氏距離整合到 K 均值聚類算法中,可以有效處理具有橢圓形狀集群的不完整數據集,並優於單獨插補或僅使用歐幾里得距離的方法。
摘要
書目資訊
Armah, L. K., & Melnykov, I. (2024, November 5). K-Means Clustering With Incomplete Data with the Use of Mahalanobis Distances. arXiv.org. https://arxiv.org/abs/2411.00870v1
研究目標
本研究旨在探討如何有效地將 K 均值聚類算法應用於具有缺失值,特別是具有橢圓形狀集群的數據集。
方法
研究人員擴展了現有的 K 均值聚類算法,將插補法和馬氏距離整合到單一目標函數中。他們在包含多達十個橢圓形集群的合成數據集以及 IRIS 數據集上進行了實驗。
主要發現
實驗結果顯示,與單獨執行插補法後再進行 K 均值聚類(使用馬氏距離或歐幾里得距離)以及其他近期整合插補法和聚類以處理不完整數據的 K 均值算法相比,本研究所提出的算法在調整蘭德指數 (ARI) 和標準化互信息 (NMI) 方面均表現更出色。
主要結論
本研究證實,對於具有缺失數據的橢圓形集群,使用馬氏距離並結合動態插補法的 K 均值聚類算法是更有效的選擇。
研究意義
本研究對於處理具有缺失值和非球形集群的數據集具有重要意義,並為改進 K 均值聚類算法的性能提供了新的思路。
局限性和未來研究方向
未來的研究方向包括開發專為橢圓形集群設計的插補技術,以及將該算法應用於具有更多缺失坐標的數據集。
統計資料
在具有 KNN 插補法的 IRIS 數據集上,當數據缺失率為 10% 時,K-Mahal 的 NMI 為 0.914,而 Unified K-means 和 K-means 的 NMI 為 0.758。
當數據缺失率增加到 50% 時,K-Mahal 的 NMI 仍保持在較高的 0.904,而 Unified K-means 和 K-means 的 NMI 分別降至 0.757 和 0.730。
對於合成數據集,當數據缺失率為 10% 且 ˇω=0.001 時,K-Mahal 的 ARI 達到 0.978,顯著優於 Unified K-means (0.888) 和 K-means (0.967)。
即使數據缺失率增加到 50%,K-Mahal 的 ARI 仍保持在較高的 0.895,顯示出對缺失數據的彈性。
當重疊度增加到 ˇω = 0.01 時,即使數據缺失率為 50%,K-Mahal 的 ARI 仍優於其他兩種算法,達到 0.761。
引述
"The Mahalanobis K-Means algorithm consistently outperforms the traditional K-Means algorithm in clustering data with non-spherical covariance structures and that it is particularly effective in scenarios where the clusters have different sizes and orientations, which are poorly handled by the Euclidean distance metric."
"Our results reinforce the finding that dynamically estimating missing entries during clustering is more effective than separating the imputation and clustering steps."