핵심 개념
다양한 데이터 증강 및 정규화 기법을 적용하여 학습된 모델들의 가중치를 점진적으로 평균화하는 PAPA 기법은 단일 모델 대비 높은 일반화 성능을 달성할 수 있다.
초록
이 논문은 앙상블 방식의 장점과 가중치 평균 방식의 효율성을 결합한 PopulAtion Parameter Averaging (PAPA) 기법을 제안한다. PAPA는 다양한 데이터 증강 및 정규화 기법을 적용하여 학습된 모델들의 가중치를 점진적으로 평균화함으로써 단일 모델 대비 높은 일반화 성능을 달성한다.
PAPA의 주요 내용은 다음과 같다:
- 다양한 데이터 증강 및 정규화 기법을 적용하여 p개의 모델을 독립적으로 학습
- 일정 주기마다 각 모델의 가중치를 전체 모델 가중치의 평균으로 점진적으로 업데이트
- 학습 종료 후 전체 모델의 가중치 평균 또는 greedy 모델 soup을 최종 모델로 사용
PAPA 변형인 PAPA-all과 PAPA-2는 모델들의 가중치를 일정 주기마다 전체 평균 또는 무작위 2개 모델의 평균으로 대체하는 방식으로, 병렬화가 용이하다.
실험 결과, PAPA 기법은 CIFAR-10, CIFAR-100, ImageNet 데이터셋에서 단일 모델 대비 최대 0.8%, 1.9%, 1.6%의 정확도 향상을 보였다. PAPA 변형들도 기본 모델 대비 우수한 성능을 보였다.
통계
CIFAR-10 데이터셋에서 VGG-11 모델의 앙상블 정확도는 95.2%, 단일 모델의 정확도는 94.0%이다.
CIFAR-100 데이터셋에서 ResNet-18 모델의 앙상블 정확도는 84.3%, 단일 모델의 정확도는 80.2%이다.
ImageNet 데이터셋에서 ResNet-50 모델의 앙상블 정확도는 78.7%, 단일 모델의 정확도는 76.8%이다.
인용구
"Ensemble methods leverage multiple pre-trained models for improved performance by taking advantage of the different representations learned by each model."
"Weight averaging is much less expensive than ensembling. However, there is usually no guarantee that weights of two neural networks average well by default."
"PAPA leverages a population of diverse models (trained on different data orders, augmentations, and regularizations) while slowly pushing the weights of the networks toward the population average of the weights."