이 논문은 데이터셋 증류(Dataset Distillation, DD)에서 일반화 성능과 강건성 향상을 위한 새로운 접근법을 제안한다. 기존 DD 방법은 학습 데이터셋과의 수렴 특성 일치에 초점을 맞추지만, 이 논문에서는 전체 모집단 분포를 고려하는 것이 중요하다고 강조한다.
이를 위해 저자들은 분포 강건 최적화(Distributionally Robust Optimization, DRO) 기반의 알고리즘을 제안한다. 이 알고리즘은 데이터 클러스터링과 위험 최소화(Conditional Value at Risk, CVaR) 손실 함수를 활용한다. 이를 통해 데이터의 대표성과 범위를 향상시켜 모델의 일반화 성능과 강건성을 높인다.
저자들은 이론적 분석과 실험 결과를 통해 제안 방법의 효과를 입증한다. 표준 벤치마크 데이터셋에서 기존 방법 대비 높은 정확도를 달성했으며, 특히 데이터 분포 변화와 소규모 하위 그룹에 대한 강건성이 크게 향상되었다. 또한 교차 아키텍처 일반화 성능도 개선되었다.
이 연구는 데이터셋 증류 시 모집단 분포의 대표성과 범위를 고려하는 것이 중요함을 보여주며, 실제 응용 환경에서 합성 데이터셋 기반 모델의 성능을 향상시킬 수 있는 새로운 방향을 제시한다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문