핵심 개념
제안된 AI-KD 방법은 사전 학습된 모델과 이전 에폭 학생 모델의 결정적이고 점진적인 지식을 암묵적으로 증류하고, 적대적 학습을 통해 학생 모델의 예측 분포를 사전 학습된 모델의 분포와 정렬시킨다.
초록
이 논문은 자기 지식 증류(Self-KD) 방법인 AI-KD를 제안한다. AI-KD는 사전 학습된 모델과 이전 에폭 학생 모델의 결정적이고 점진적인 지식을 암묵적으로 증류하고, 적대적 학습을 통해 학생 모델의 예측 분포를 사전 학습된 모델의 분포와 정렬시킨다.
AI-KD는 두 단계로 구성된다. 첫 번째 단계에서는 사전 학습된 모델을 획득한다. 두 번째 단계에서는 사전 학습된 모델을 활용하여 학생 모델을 학습한다. 학생 모델은 사전 학습된 모델의 예측 분포를 모방하도록 학습되며, 동시에 적대적 학습을 통해 자신의 예측 분포를 사전 학습된 모델의 분포와 정렬시킨다.
실험 결과, AI-KD는 다양한 데이터셋과 네트워크 아키텍처에서 기존 방법들보다 우수한 성능을 보였다. 특히 미세 분류 데이터셋에서 두드러진 성능 향상을 보였다.
통계
사전 학습된 모델의 예측 확률 분포와 학생 모델의 예측 확률 분포 간 KL divergence를 최소화한다.
이전 에폭 학생 모델의 예측 확률 분포와 현재 학생 모델의 예측 확률 분포 간 KL divergence를 최소화한다.
사전 학습된 모델과 학생 모델의 예측 분포 간 Earth-Mover's distance를 최소화한다.
인용구
"제안된 AI-KD 방법은 사전 학습된 모델과 이전 에폭 학생 모델의 결정적이고 점진적인 지식을 암묵적으로 증류하고, 적대적 학습을 통해 학생 모델의 예측 분포를 사전 학습된 모델의 분포와 정렬시킨다."
"실험 결과, AI-KD는 다양한 데이터셋과 네트워크 아키텍처에서 기존 방법들보다 우수한 성능을 보였다. 특히 미세 분류 데이터셋에서 두드러진 성능 향상을 보였다."