이 논문은 일반화된 범주 발견(GCD) 문제를 다룬다. GCD는 부분적으로 레이블된 데이터셋에서 알려진 범주와 알려지지 않은 범주를 모두 자동으로 클러스터링하는 문제이다.
저자들은 CiPR이라는 새로운 프레임워크를 제안한다. CiPR은 부분적으로 레이블된 데이터에서 인스턴스 간 긍정적 관계를 활용하여 표현 학습을 강화한다. 이를 위해 선별적 이웃 클러스터링(SNC)이라는 새로운 반지도 계층적 클러스터링 알고리즘을 도입한다. SNC는 레이블된 인스턴스의 특성을 고려하여 신뢰할 수 있는 의사 레이블을 생성하고, 이를 통해 레이블된 데이터와 레이블되지 않은 데이터 간의 관계를 효과적으로 활용할 수 있다.
또한 SNC는 알려지지 않은 범주 수를 추정하고 모든 레이블되지 않은 인스턴스에 대한 레이블 할당을 수행할 수 있다.
실험 결과, CiPR은 다양한 일반 이미지 인식 및 세부 이미지 인식 데이터셋에서 기존 최신 방법들을 크게 능가하는 성능을 보였다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor