Core Concepts
In dieser Arbeit entwickeln wir effiziente Approximationsalgorithmen für das k-Zentren-Clustering mit instanzspezifischen Muss-Link- und Kann-Link-Beschränkungen, die eine Approximationsrate von 2 erreichen.
Abstract
Die Arbeit befasst sich mit dem k-Zentren-Clustering, bei dem ähnliche Datenpunkte in Gruppen oder Cluster organisiert werden. Klassische k-Zentren-Clustering-Probleme sind NP-schwer, aber k-Zentren-Clustering ist robust gegenüber Ausreißern und kann effizient skaliert werden.
Die Autoren erweitern das k-Zentren-Clustering, indem sie Muss-Link- und Kann-Link-Beschränkungen einführen, um Hintergrundwissen über die Ähnlichkeit oder Unähnlichkeit von Datenpunkten zu berücksichtigen. Dies führt zu einem komplexeren Optimierungsproblem, da die Erfüllung der Kann-Link-Beschränkungen NP-schwierig ist.
Die Autoren entwickeln zunächst einen effizienten Approximationsalgorithmus für das beschränkte k-Zentren-Clustering, der eine Approximationsrate von 2 erreicht, indem er eine neue Struktur namens "Reverse Dominating Set" (RDS) verwendet. Anschließend entwickeln sie einen schnelleren, greedy-basierten Algorithmus, der ebenfalls eine Approximationsrate von 2 erreicht.
Die Experimente auf verschiedenen realen Datensätzen zeigen, dass die vorgeschlagenen Algorithmen deutliche Vorteile in Bezug auf Clustering-Kosten, -Qualität und Laufzeitkomplexität gegenüber Baseline-Methoden aufweisen.
Stats
Das beschränkte k-Zentren-Clustering-Problem ist NP-schwierig, selbst nur die Machbarkeit zu bestimmen.
Der vorgeschlagene LP-basierte Algorithmus hat eine Laufzeit von O(nk3).
Der greedy-basierte Algorithmus hat eine Laufzeit von O(k2).
Quotes
"Arbitrarily intersected CL constraints were known to be problematic to clustering as their inclusion leads to a computationally intractable feasibility problem."
"It is NP-complete even only to determine whether an instance of the CL-constrained clustering problem is feasible."