데이터셋 축소는 데이터 중심 학습의 한 개념으로, 원본 데이터셋의 다양성과 사실성을 유지하면서도 핵심 속성을 합성 데이터셋으로 효율적으로 전달한다. 이를 통해 모델 학습 효율을 크게 향상시킬 수 있으며, 다양한 응용 분야에 적용할 수 있다.
기존 데이터셋 축소 방법들은 다음과 같은 한계를 겪었다:
이를 해결하기 위해 본 연구에서는 다음과 같은 효과적인 전략을 포함하는 종합적인 설계 프레임워크를 제안한다:
이러한 전략은 경험적 증거와 이론적 근거에 기반한다. 제안하는 Elucidate Dataset Condensation (EDC) 기법은 소규모 및 대규모 데이터셋 축소에 대한 벤치마크를 수립한다. 실험 결과, EDC는 ImageNet-1k에서 ResNet-18 모델로 IPC 10에서 48.6%의 최고 정확도를 달성하여, SRe2L, G-VBSM, RDED 대비 각각 27.3%, 17.2%, 6.6% 향상된 성능을 보였다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Shitong Shao... at arxiv.org 04-23-2024
https://arxiv.org/pdf/2404.13733.pdfDeeper Inquiries