핵심 개념
데이터셋 축소는 원본 데이터셋의 핵심 속성을 효율적으로 합성 데이터셋으로 전달하여 모델 학습 효율을 크게 향상시킬 수 있는 기술이다.
초록
데이터셋 축소는 데이터 중심 학습의 한 개념으로, 원본 데이터셋의 다양성과 사실성을 유지하면서도 핵심 속성을 합성 데이터셋으로 효율적으로 전달한다. 이를 통해 모델 학습 효율을 크게 향상시킬 수 있으며, 다양한 응용 분야에 적용할 수 있다.
기존 데이터셋 축소 방법들은 다음과 같은 한계를 겪었다:
- 일부 방법은 계산 비용이 높아 대규모 데이터셋에 적용하기 어려움 (예: MTT, DREAM, TESLA)
- 일부 방법은 최적이지 않은 설계 공간에 국한되어 있어 개선 여지가 제한적, 특히 소규모 데이터셋에서 (예: SRe2L, G-VBSM, RDED)
이를 해결하기 위해 본 연구에서는 다음과 같은 효과적인 전략을 포함하는 종합적인 설계 프레임워크를 제안한다:
- 소프트 카테고리 인지 매칭 구현
- 학습률 스케줄 조정
이러한 전략은 경험적 증거와 이론적 근거에 기반한다. 제안하는 Elucidate Dataset Condensation (EDC) 기법은 소규모 및 대규모 데이터셋 축소에 대한 벤치마크를 수립한다. 실험 결과, EDC는 ImageNet-1k에서 ResNet-18 모델로 IPC 10에서 48.6%의 최고 정확도를 달성하여, SRe2L, G-VBSM, RDED 대비 각각 27.3%, 17.2%, 6.6% 향상된 성능을 보였다.
통계
ImageNet-1k에서 ResNet-18 모델로 IPC 10일 때 EDC의 정확도는 48.6%이다.
SRe2L, G-VBSM, RDED 대비 EDC의 정확도 향상폭은 각각 27.3%, 17.2%, 6.6%이다.
인용구
"데이터셋 축소는 데이터 중심 학습의 한 개념으로, 원본 데이터셋의 다양성과 사실성을 유지하면서도 핵심 속성을 합성 데이터셋으로 효율적으로 전달한다."
"제안하는 Elucidate Dataset Condensation (EDC) 기법은 소규모 및 대규모 데이터셋 축소에 대한 벤치마크를 수립한다."