本文首先分析了線性可區分熵聚類與K-means聚類的理論關係。我們證明了線性可區分熵聚類具有最大邊界的性質,與基於SVM的聚類方法有關。這與先前的理論存在矛盾。
接下來,我們提出了一種新的自標記損失函數和算法,適用於一般的可區分熵聚類。我們觀察到標準的決策性損失函數對伪標籤的不確定性/錯誤很敏感。我們提出了一種更加穩健的反向交叉熵損失。我們還提出了一種零迴避形式的KL散度作為更強的公平性項,不容忍平凡的聚類。
我們的新自標記損失函數對伪標籤是凸的,允許一個高效的EM求解器,具有封閉形式的E步和M步。在標準基準測試中,我們的新算法優於現有的最先進方法,驗證了我們的技術洞見。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor