이 논문은 데이터셋 증류 과정에서 합성 데이터의 다양성 향상에 초점을 맞추고 있다. 데이터셋 증류는 원본 데이터셋의 핵심 특성을 유지하면서도 크기를 줄이는 기법으로, 데이터 저장 및 처리 비용을 절감할 수 있다.
기존 연구들은 주로 대표성 있는 데이터 부분집합 선택이나 합성 데이터 생성에 초점을 맞추었다. 그러나 개별적으로 합성된 데이터 인스턴스들 간의 다양성 확보가 중요함을 지적한다.
이를 위해 저자들은 배치 정규화(Batch Normalization) 손실 함수의 분산 정규화 항목이 다양성 향상에 핵심적인 역할을 한다는 것을 이론적으로 분석한다. 이를 바탕으로 가중치 매개변수에 대한 동적이고 지향적인 조정 메커니즘을 제안한다. 이를 통해 각 합성 데이터 배치가 원본 데이터셋의 다양한 특성을 반영할 수 있도록 한다.
제안 기법의 우수성은 CIFAR, Tiny-ImageNet, ImageNet-1K 등 다양한 데이터셋에 대한 실험 결과를 통해 검증된다. 특히 대규모 ImageNet-1K 데이터셋에서 기존 최신 기법 대비 큰 성능 향상을 보인다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések