Effiziente Komprimierung großer Datensätze durch Abwägung von Konvergenzzeit und Genauigkeit beim Clustering
Es gibt einen Zielkonflikt zwischen der Geschwindigkeit und der Genauigkeit von Clustering-Algorithmen auf großen Datensätzen. Schnelle Komprimierungsmethoden wie Stichprobennahme können zwar effizient sein, aber keine Genauigkeitsgarantien bieten. Andererseits können genaue Komprimierungsmethoden wie Coresets sehr langsam sein. Die Autoren untersuchen diesen Zielkonflikt und zeigen, wann welche Komprimierungsmethode am besten geeignet ist.