이 연구는 데이터셋 증류 문제에 대한 새로운 접근법을 제시한다. 기존 연구들은 주로 중간 통계량(가중치 궤적, 특징, 기울기, BatchNorm 등)을 정렬하는 데 초점을 맞추었지만, 이 연구는 데이터 압축 단계에서 모델의 정보성을 새로운 관점에서 다룬다.
연구진은 감독 학습 모델의 BatchNorm 통계량 분포가 균일해지면서 데이터 합성에 필요한 정보가 감소하는 문제를 발견했다. 이에 반해 자기지도 학습 모델의 BatchNorm 통계량 분포는 더 다양하고 정보가 풍부하다는 것을 확인했다.
이를 바탕으로 연구진은 자기지도 학습 모델의 중간 특징 분포를 활용하는 간단하지만 효과적인 데이터셋 증류 프레임워크인 SC-DD를 제안했다. SC-DD는 중간 특징 분포 학습과 고수준 의미 정렬을 분리하는 방식으로 작동한다.
실험 결과, SC-DD는 기존 최신 방법들보다 CIFAR-100, Tiny-ImageNet, ImageNet-1K 데이터셋에서 큰 폭으로 성능이 향상되었다. 특히 회복 모델의 규모가 커질수록 성능 향상이 두드러졌다. 이는 대규모 모델과 데이터셋 시대에 데이터셋 증류 문제의 확장성을 높이는 데 중요한 의미를 갖는다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문