核心概念
데이터셋 축소는 대규모 데이터셋의 풍부한 정보를 작은 대체 데이터셋에 담아내어 학습 시 필요한 저장 공간과 계산 자원을 줄이는 것을 목표로 한다. 본 연구에서는 확산 모델을 활용하여 대체 데이터셋을 생성하는 새로운 방법을 제안한다. 대체 데이터셋의 대표성과 다양성을 향상시키기 위해 추가적인 미니맥스 기준을 확산 모델 학습에 도입하였다. 이를 통해 기존 방법들에 비해 훨씬 적은 계산 자원으로도 최신 수준의 성능을 달성할 수 있음을 보였다.
要約
본 연구는 데이터셋 축소 문제를 다룬다. 데이터셋 축소는 대규모 데이터셋의 풍부한 정보를 작은 대체 데이터셋에 담아내어 학습 시 필요한 저장 공간과 계산 자원을 줄이는 것을 목표로 한다.
기존 데이터셋 축소 방법들은 샘플 단위의 반복적인 최적화 기법에 의존하고 있다. 이러한 방식은 대체 데이터셋의 크기나 이미지 해상도가 커질수록 막대한 시간과 자원이 필요하게 된다는 문제가 있다.
본 연구에서는 확산 모델을 활용하여 효율적으로 대체 데이터셋을 생성하는 새로운 방법을 제안한다. 대체 데이터셋의 대표성과 다양성이 중요한 요인으로 파악되었으며, 이를 향상시키기 위해 추가적인 미니맥스 기준을 확산 모델 학습에 도입하였다.
제안 방법은 기존 방법들에 비해 훨씬 적은 계산 자원으로도 최신 수준의 성능을 달성할 수 있다. ImageWoof 데이터셋의 100-IPC 설정에서 제안 방법은 기존 방법의 1/20 수준의 축소 시간만으로도 더 나은 성능을 보였다.
統計
제안 방법은 ImageWoof 데이터셋의 100-IPC 설정에서 기존 방법의 1/20 수준의 축소 시간만으로도 더 나은 성능을 보였다.
제안 방법은 ImageWoof 데이터셋의 70-IPC와 100-IPC 설정에서 각각 5.5%와 8.1% 더 높은 성능을 달성했다.
引用
"Dataset distillation reduces the storage and computational consumption of training a network by generating a small surrogate dataset that encapsulates rich information of the original large-scale one."
"Previous dataset distillation methods mostly engage in iterative optimization on fixed-number samples at the pixel level or embedding level. However, the sample-wise iterative optimization scheme suffers from problems of two perspectives."