핵심 개념
본 논문에서는 알 수 없는 수의 클러스터를 가진 데이터에서 딥 러닝을 활용한 클러스터링을 수행할 때, 학습 과정에서 사라지는 클러스터를 활용하여 클러스터 수를 효과적으로 추정하는 UNSEEN 프레임워크를 제안합니다.
초록
UNSEEN: 딥 임베딩에서 알 수 없는 클러스터 수 다루기
본 연구 논문에서는 레이블링 되지 않은 데이터에서 클러스터 수를 모른 채 딥 클러스터링을 수행하는 새로운 프레임워크인 UNSEEN을 제안합니다. 저자들은 딥 러닝 모델 학습 과정에서 특정 클러스터에 속하는 데이터 포인트 수가 줄어들어 결국 사라지는 현상인 "dying cluster"에 주목합니다. UNSEEN은 이러한 현상을 이용하여 클러스터 수를 추정하고, 나아가 더 나은 클러스터링 결과를 얻는 것을 목표로 합니다.
Dying Cluster 활용: UNSEEN은 딥 러닝 모델 학습 중 나타나는 dying cluster 현상을 기반으로 작동합니다. 특정 클러스터 크기가 초기 크기의 일정 비율(dying threshold) 이하로 줄어들면 해당 클러스터를 'dead' 상태로 간주하고 제거합니다. 제거된 클러스터에 속했던 데이터 포인트들은 남아있는 클러스터 중 가장 가까운 곳에 재할당됩니다.
Nearest-Neighbor Loss: 초기 클러스터링 결과에 지나치게 의존하는 것을 방지하기 위해 nearest-neighbor loss를 도입했습니다. 이 loss는 인접한 클러스터들을 latent space 상에서 더 가깝게 만들어 클러스터링 품질을 향상시킵니다.
다양한 딥 클러스터링 알고리즘과의 호환성: UNSEEN은 특정 알고리즘에 종속되지 않고 다양한 딥 클러스터링 알고리즘(DCN, DEC, DKM 등)과 결합하여 사용할 수 있습니다.
저자들은 다양한 이미지 데이터셋(MNIST, Fashion-MNIST, Kuzushiji-MNIST 등)과 표 형식 데이터셋(Pendigits)을 사용하여 UNSEEN의 성능을 평가했습니다. 실험 결과, UNSEEN은 대부분의 데이터셋과 평가 지표에서 기존 딥 클러스터링 알고리즘보다 우수한 성능을 보였습니다. 특히, 실제 클러스터 수를 알고 있는 상태에서 학습한 모델보다 더 나은 결과를 보여주는 경우도 있었습니다.