핵심 개념
결측 데이터셋에서 매개변수 없이 유효한 클러스터링 결과를 얻을 수 있는 SDC 알고리즘을 제안한다.
초록
이 논문은 결측 데이터셋에 대한 클러스터링 문제를 다룬다. 기존 알고리즘은 결측값을 먼저 보완한 후 클러스터링을 수행하지만, 이 과정에서 많은 입력 매개변수가 필요하여 정확한 클러스터링 결과를 얻기 어렵다.
저자들은 SDC라는 새로운 알고리즘을 제안한다. SDC는 다음과 같은 특징을 가진다:
- 결측값 보완 과정을 제거하고, 단일 차원 데이터셋에 대한 클러스터링을 통해 매개변수 없이 클러스터링을 수행한다.
- 단일 차원 데이터셋 간 "파티션 교차" 기법을 통해 최종 클러스터를 도출한다.
- 클러스터 경계를 수축하는 "중력" 기법을 도입하여 단일 차원 데이터셋의 클러스터 정보를 최대한 보존한다.
- 배치 밀도 계산 방법을 통해 시간 복잡도를 크게 낮춘다.
실험 결과, SDC는 기존 알고리즘 대비 NMI 13.7%, ARI 23.8%, Purity 8.1% 향상된 성능을 보였다. 또한 결측률 증가에도 SDC의 우수성이 일관되게 유지되었다.
통계
결측 데이터셋에서 SDC의 NMI 평균 정확도는 0.58로, 기존 알고리즘 대비 최소 13.7% 향상되었다.
결측 데이터셋에서 SDC의 ARI 평균 정확도는 0.52로, 기존 알고리즘 대비 최소 23.8% 향상되었다.
결측 데이터셋에서 SDC의 Purity 평균 정확도는 0.80로, 기존 알고리즘 대비 최소 8.1% 향상되었다.
인용구
"결측 데이터셋에서 매개변수 없이 유효한 클러스터링 결과를 얻을 수 있는 SDC 알고리즘을 제안한다."
"SDC는 결측값 보완 과정을 제거하고, 단일 차원 데이터셋에 대한 클러스터링을 통해 매개변수 없이 클러스터링을 수행한다."
"SDC는 클러스터 경계를 수축하는 "중력" 기법을 도입하여 단일 차원 데이터셋의 클러스터 정보를 최대한 보존한다."