Core Concepts
데이터셋 증류에서 클래스 구분력 향상과 정확한 특징 분포 매칭을 위해 클래스 중심화 제약과 공분산 매칭 제약을 제안한다.
Abstract
본 논문은 데이터셋 증류 기법 중 분포 매칭 기반 방법의 두 가지 주요 한계점을 해결하기 위해 새로운 제약 조건을 제안한다.
첫째, 합성 데이터셋 내 동일 클래스 샘플의 특징 분포가 산재되어 클래스 구분력이 낮은 문제를 해결하기 위해 클래스 중심화 제약을 도입한다. 이를 통해 동일 클래스 내 샘플들이 더욱 밀집되도록 한다.
둘째, 기존 방법들이 평균 특징 일치에만 초점을 맞추어 특징 분포 매칭이 정확하지 않은 문제를 해결하기 위해 공분산 매칭 제약을 제안한다. 이는 특히 합성 데이터셋의 샘플 수가 특징 차원보다 작은 경우에 효과적이다.
실험 결과, 제안한 두 제약 조건을 적용하여 CIFAR10에서 최대 6.6%, SVHN에서 2.9%, CIFAR100에서 2.5%, TinyImageNet에서 2.5%의 성능 향상을 달성했다. 또한 교차 아키텍처 실험에서도 최대 1.7%의 성능 저하만 나타나는 등 우수한 일반화 성능을 보였다.
Stats
합성 데이터셋의 클래스 내 샘플 수가 특징 차원보다 작은 경우, 정확한 공분산 행렬 추정이 어려워 특징 분포 매칭이 어렵다.
제안한 공분산 매칭 제약을 통해 이러한 문제를 해결할 수 있다.
Quotes
"데이터셋 증류는 대규모 실제 데이터셋에서 작은 합성 데이터셋을 유도하는 유망한 접근법이다."
"기존 분포 매칭 기반 방법은 합성 데이터셋 내 동일 클래스 샘플의 특징 분포가 산재되어 클래스 구분력이 낮고, 평균 특징 일치에만 초점을 맞추어 정확성과 포괄성이 부족하다."