이 논문은 k-means와 k-median 클러스터링 알고리즘의 이론적 및 실용적 런타임 한계를 연구한다. 데이터셋 크기가 매우 큰 경우, 효과적으로 모든 클러스터링 방법이 데이터셋을 읽는 시간보다 느리기 때문에, 가장 빠른 접근법은 데이터를 빠르게 압축하고 압축된 표현에서 클러스터링을 수행하는 것이다.
저자들은 두 가지 접근법을 연구한다:
저자들은 이 두 접근법의 장단점을 분석하고, 실제 데이터셋과 인공 데이터셋에서 각 방법의 성능을 평가한다. 그 결과, 빠른 압축 기법은 많은 실제 데이터셋에서 충분히 정확하지만, 일부 데이터 분포에서는 심각한 실패가 발생할 수 있음을 보여준다. 따라서 정확도를 완전히 보장하려면 코어셋 기법이 필요하다.
또한 저자들은 k-means와 k-median 코어셋을 ˜O(nd) 시간 내에 구축할 수 있는 알고리즘을 제안한다. 이는 기존 방법보다 이론적으로 최적에 가깝다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Andrew Draga... at arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01936.pdfDeeper Inquiries