核心概念
데이터셋 내 개념 클러스터의 복잡성을 고려하여 데이터를 효과적으로 정제함으로써 모델 성능 향상과 학습 비용 절감을 달성할 수 있다.
摘要
이 연구는 데이터셋 정제 기법을 개선하여 모델 학습의 효율성을 높이는 방법을 제안한다. 기존의 단순한 정제 방식에서 벗어나, 데이터 포인트 간 근접성의 영향을 고려하는 새로운 정제 전략을 도입하였다.
LAION 데이터셋에 적용한 결과, OpenCLIP-ViT-B/32 모델의 ImageNet 제로샷 정확도를 1.1%p 향상시키면서도 학습 비용을 27.7%로 크게 줄일 수 있었다. 또한 DataComp Medium 벤치마크에서 ImageNet 제로샷 정확도 신기록을 달성하고, 38개 평가 과제에서도 우수한 성과를 보였다.
이는 최적화된 데이터셋 정제 기법이 기계 학습 모델 발전에 미치는 큰 영향을 보여준다.
統計資料
전체 LAION-CAT-440M 데이터셋 대비 27.7%의 학습 비용으로 ImageNet 제로샷 정확도 64.1%를 달성하였다.
전체 LAION-CAT-440M 데이터셋 대비 41.6%의 학습 비용으로 ImageNet 분포 이동 과제에서 51.7%의 정확도를 달성하였다.
전체 LAION-CAT-440M 데이터셋 대비 55.4%의 학습 비용으로 VTAB 과제에서 53.8%의 정확도를 달성하였다.
전체 LAION-CAT-440M 데이터셋 대비 27.7%의 학습 비용으로 retrieval 과제에서 57.1%의 정확도를 달성하였다.
引述
"데이터셋 내 개념 클러스터의 복잡성을 고려하여 데이터를 정제함으로써 모델 성능 향상과 학습 비용 절감을 달성할 수 있다."
"전체 LAION-CAT-440M 데이터셋 대비 27.7%의 학습 비용으로 ImageNet 제로샷 정확도 64.1%를 달성하였다."