Core Concepts
부분적으로 레이블된 데이터에서 인스턴스 간 긍정적 관계를 활용하여 표현 학습을 강화함으로써 알려진 범주와 알려지지 않은 범주를 모두 효과적으로 발견할 수 있는 프레임워크를 제안한다.
Abstract
이 논문은 일반화된 범주 발견(GCD) 문제를 다룬다. GCD는 부분적으로 레이블된 데이터셋에서 알려진 범주와 알려지지 않은 범주를 모두 자동으로 클러스터링하는 문제이다.
저자들은 CiPR이라는 새로운 프레임워크를 제안한다. CiPR은 부분적으로 레이블된 데이터에서 인스턴스 간 긍정적 관계를 활용하여 표현 학습을 강화한다. 이를 위해 선별적 이웃 클러스터링(SNC)이라는 새로운 반지도 계층적 클러스터링 알고리즘을 도입한다. SNC는 레이블된 인스턴스의 특성을 고려하여 신뢰할 수 있는 의사 레이블을 생성하고, 이를 통해 레이블된 데이터와 레이블되지 않은 데이터 간의 관계를 효과적으로 활용할 수 있다.
또한 SNC는 알려지지 않은 범주 수를 추정하고 모든 레이블되지 않은 인스턴스에 대한 레이블 할당을 수행할 수 있다.
실험 결과, CiPR은 다양한 일반 이미지 인식 및 세부 이미지 인식 데이터셋에서 기존 최신 방법들을 크게 능가하는 성능을 보였다.
Stats
레이블된 데이터와 레이블되지 않은 데이터가 모두 포함된 부분적으로 레이블된 데이터셋을 활용한다.
레이블된 데이터와 레이블되지 않은 데이터는 모두 알려진 범주와 알려지지 않은 범주에서 온 것일 수 있다.
알려진 범주 수와 알려지지 않은 범주 수는 사전에 알려지지 않는다.