Core Concepts
다중 뷰 데이터의 내재적 구조를 발견하기 위해 다중 뷰 관계를 특징 학습과 자기 표현 단계에 모두 포함하는 다중 뷰 심층 부공간 클러스터링 네트워크를 제안한다.
Abstract
이 논문은 다중 뷰 데이터의 내재적 구조를 발견하기 위한 다중 뷰 심층 부공간 클러스터링 네트워크(MvDSCN)를 제안한다. MvDSCN은 다음과 같은 특징을 가진다:
다중 뷰 관계를 특징 학습과 자기 표현 단계에 모두 포함하여 엔드-투-엔드 방식으로 다중 뷰 자기 표현 행렬을 학습한다.
다양성 네트워크(Dnet)와 보편성 네트워크(Unet)의 두 개의 하위 네트워크로 구성되어, 뷰 특정 자기 표현 행렬과 공통 자기 표현 행렬을 각각 학습한다.
다양성 정규화와 보편성 정규화를 통해 다중 뷰 관계를 효과적으로 활용한다.
다중 백본을 통합하여 클러스터링 성능을 높이고 모델 선택의 필요성을 줄인다.
실험 결과, MvDSCN은 다양한 다중 뷰 데이터셋에서 우수한 클러스터링 성능을 보였다.
Stats
다중 뷰 데이터에서 각 뷰의 데이터 차원은 다양하게 존재한다. 예를 들어 Yale 데이터셋의 경우 강도 특징은 4,096차원, LBP 특징은 3,304차원, Gabor 특징은 6,750차원이다.
ORL 데이터셋의 경우 40개 개인에 대해 각각 10장의 이미지가 존재한다.
Still DB 데이터셋은 467개의 이미지로 구성되어 있으며, 6개의 행동 클래스가 있다.
BBCSport 데이터셋은 544개의 문서로 구성되어 있으며, 2개의 관점과 5개의 주제 영역이 있다.
ImageNet ILSVRC 2012 데이터셋은 1.3백만 개의 학습 샘플과 50,000개의 검증 샘플로 구성되어 있다.
Quotes
"다중 뷰 관계는 특징 학습 과정에 포함되지 않고 친화도 행렬 학습 과정에만 고려되므로, 기존 방법의 성능이 만족스럽지 않다."
"제안하는 MvDSCN은 다중 뷰 관계를 특징 학습과 자기 표현 단계에 모두 포함하여 엔드-투-엔드 방식으로 다중 뷰 자기 표현 행렬을 학습한다."