이 논문은 클러스터 분석을 위한 합성 데이터 생성 방법을 제안한다. 기존의 합성 데이터 생성기는 사용자가 개별 클러스터의 매개변수를 직접 조정해야 하는 번거로움이 있었다. 이에 반해 이 논문에서 제안하는 방법은 데이터셋 원형이라는 개념을 도입하여 사용자가 원하는 데이터셋의 전반적인 기하학적 특성을 고수준으로 지정할 수 있게 한다.
데이터셋 원형은 클러스터의 개수, 차원, 크기, 모양, 중첩도 등 데이터셋의 전반적인 특성을 요약하는 고수준 매개변수로 정의된다. 사용자는 이러한 매개변수를 직접 지정하거나 자연어로 설명할 수 있다. 이를 바탕으로 합성 데이터가 생성된다.
또한 저자들은 비볼록 클러스터 형태를 만들기 위한 두 가지 후처리 기법을 제안한다. 첫째는 신경망을 통해 볼록 클러스터를 비볼록하게 변형하는 것이고, 둘째는 데이터를 초구면에 투영하여 방향성 데이터를 생성하는 것이다.
실험 결과, 제안된 방법은 사용자가 원하는 특성을 가진 합성 데이터를 편리하게 생성할 수 있음을 보여준다. 또한 클러스터 중첩도와 클러스터링 성능 간의 관계를 잘 포착하고 있다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies