Core Concepts
대규모 고해상도 데이터셋을 효율적으로 압축하여 다양성과 현실성을 모두 보장하는 새로운 데이터 증류 방법을 제안한다.
Abstract
이 논문은 기존 데이터 증류 방법의 한계를 분석하고, 다양성, 현실성, 효율성이라는 세 가지 핵심 속성을 동시에 달성할 수 있는 새로운 데이터 증류 방법인 RDED를 제안한다.
첫째, 다양성을 위해 원본 데이터에서 핵심 패치를 추출하고 이를 재구성하여 새로운 이미지를 생성한다. 둘째, 현실성을 위해 사전 학습된 모델과 사람의 예측 능력을 활용하여 각 패치의 현실성 점수를 계산하고, 높은 점수의 패치를 선별한다. 셋째, 이러한 과정을 통해 효율적으로 대규모 고해상도 데이터셋을 압축할 수 있다.
실험 결과, RDED는 기존 방법 대비 2배 이상의 성능 향상을 보이며, 52배 빠른 속도로 ImageNet-1K 데이터셋을 압축할 수 있음을 보여준다. 또한 다양한 신경망 구조에서 우수한 일반화 성능을 달성한다.
Stats
기존 방법 대비 ImageNet-1K 데이터셋 압축 속도가 52배 빠르다.
ResNet-18 모델로 ImageNet-1K 데이터셋을 IPC=10으로 압축했을 때, 42%의 top-1 정확도를 달성한다.
Quotes
"우리는 다양성과 현실성을 동시에 달성할 수 있는 새로운 통합 데이터 증류 패러다임인 RDED를 제안한다."
"RDED는 기존 방법 대비 2배 이상의 성능 향상을 보이며, 52배 빠른 속도로 ImageNet-1K 데이터셋을 압축할 수 있다."