Die Autoren untersuchen den Zielkonflikt zwischen Geschwindigkeit und Genauigkeit beim Clustering großer Datensätze. Sie betrachten verschiedene Komprimierungsmethoden, die einen Kompromiss zwischen Laufzeit und Genauigkeit darstellen.
Zunächst zeigen sie, dass es einen Algorithmus gibt, der Coresets in quasi-linearer Zeit berechnen kann. Dieser bietet theoretische Garantien für die Genauigkeit der Komprimierung, ist aber in der Praxis langsamer als einfachere Stichprobenverfahren.
Die Autoren untersuchen dann eine Reihe von Stichprobenverfahren, die schneller als der Coreset-Algorithmus sind, aber keine theoretischen Garantien bieten. Sie zeigen, dass diese Verfahren auf vielen realen Datensätzen gute Ergebnisse liefern, aber es auch Fälle gibt, in denen sie katastrophal versagen. Daher ist der Coreset-Algorithmus notwendig, wenn man Genauigkeit garantieren möchte.
Die Autoren analysieren auch den Streaming-Fall und zeigen, dass ähnliche Erkenntnisse auch dort gelten. Insgesamt geben sie dem Anwender eine Blaupause an die Hand, wann welche Komprimierungsmethode am besten geeignet ist.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Andrew Draga... at arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01936.pdfDeeper Inquiries