Core Concepts
대규모 데이터셋에서 예측 불확실성과 학습 동역학을 활용하여 정보가 풍부한 데이터 부분집합을 선별함으로써 모델 성능 저하를 최소화하는 방법을 제안한다.
Abstract
이 논문은 대규모 데이터셋 가지치기 문제를 다룬다. 대규모 데이터셋을 활용하여 최신 모델을 학습하는 것이 성능 향상에 도움이 되지만, 이에 따른 계산 비용이 증가하는 문제가 있다. 이를 해결하기 위해 저자들은 예측 불확실성과 학습 동역학을 활용하여 정보가 풍부한 데이터 부분집합을 선별하는 방법을 제안한다.
제안 방법은 다음과 같다:
모델 학습 과정에서 각 데이터 샘플의 예측 불확실성을 측정한다. 이때 불확실성은 일정 기간 동안의 예측 변화량을 통해 계산된다.
전체 학습 과정에 걸쳐 계산된 불확실성 값을 평균하여 최종 불확실성 점수를 산출한다.
데이터 샘플들을 불확실성 점수 순으로 정렬하고, 상위 일부를 선별하여 최종 데이터셋을 구성한다.
저자들은 ImageNet-1K와 ImageNet-21K 데이터셋에 대해 실험을 수행하였으며, 제안 방법이 기존 최신 기법들을 크게 능가하는 성능을 보였다. 특히 25%의 데이터를 제거하더라도 원본 데이터셋 대비 성능 저하가 거의 없는 것으로 나타났다. 또한 선별된 데이터셋이 다른 모델 아키텍처에서도 일반화되는 것을 확인하였다.
Stats
대규모 데이터셋 ImageNet-1K와 ImageNet-21K에서 25% 데이터 제거 시에도 원본 데이터셋 대비 성능 저하가 거의 없음
제안 방법이 기존 최신 기법들을 크게 능가하는 성능을 보임
Quotes
"The state of the art of many learning tasks, e.g., image classification, is advanced by collecting larger datasets and then training larger models on them. As the outcome, the increasing computational cost is becoming unaffordable."
"It is known that large-scale datasets have many redundant and less-informative samples which contribute little to model training. Dataset pruning (or coreset selection) aims to remove those less-informative training samples and remain the informative ones of original dataset, such that models trained on the remaining subset can achieve comparable performance."