核心概念
線性可區分熵聚類具有最大邊界的性質,與基於SVM的聚類方法有關。我們提出了一種新的自標記損失函數和算法,適用於一般的可區分熵聚類,在標準基準測試中優於現有的最先進方法。
摘要
本文首先分析了線性可區分熵聚類與K-means聚類的理論關係。我們證明了線性可區分熵聚類具有最大邊界的性質,與基於SVM的聚類方法有關。這與先前的理論存在矛盾。
接下來,我們提出了一種新的自標記損失函數和算法,適用於一般的可區分熵聚類。我們觀察到標準的決策性損失函數對伪標籤的不確定性/錯誤很敏感。我們提出了一種更加穩健的反向交叉熵損失。我們還提出了一種零迴避形式的KL散度作為更強的公平性項,不容忍平凡的聚類。
我們的新自標記損失函數對伪標籤是凸的,允許一個高效的EM求解器,具有封閉形式的E步和M步。在標準基準測試中,我們的新算法優於現有的最先進方法,驗證了我們的技術洞見。
統計資料
最大邊界聚類的定義中,邊界大小|y|被定義為資料集{Xi}中最小的|u⊤Xi|,其中u是與標籤y一致的單位範數線性分類器。
線性可區分熵聚類的總決策性損失函數R∞(v)被定義為平均R∞(σ(v⊤X))。
我們提出的新自標記損失函數包括一個反向交叉熵項,以及一個零迴避形式的KL散度項作為公平性項。