본 논문은 기존 로짓 기반 지식 증류 방법의 한계를 지적하고, 이를 해결하기 위한 Scale Decoupled Distillation (SDD) 방법을 제안한다.
기존 로짓 기반 지식 증류 방법은 전역 로짓 출력을 활용하는데, 이는 다양한 의미 정보가 혼재되어 있어 학생 모델의 학습을 방해할 수 있다. 예를 들어, 동일 상위 클래스에 속하는 두 클래스의 샘플이나 다중 클래스 정보가 포함된 샘플의 경우 전역 로짓 출력이 모호한 정보를 전달할 수 있다.
이를 해결하기 위해 SDD는 로짓 출력을 다중 스케일로 분해하여 세부적이고 명확한 의미 정보를 학생 모델에 전달한다. 구체적으로, SDD는 전역 로짓 출력을 다중 스케일 평균 풀링을 통해 지역 로짓 출력으로 분해한다. 이를 통해 학생 모델은 교사 모델의 다양한 스케일의 의미 정보를 학습할 수 있다.
또한 SDD는 분해된 지역 로짓 출력을 일관성 있는 부분과 보완적인 부분으로 구분한다. 일관성 있는 부분은 전역 로짓 출력과 동일한 클래스에 해당하는 정보를 전달하여 해당 클래스에 대한 의미 정보를 강화한다. 보완적인 부분은 전역 로짓 출력과 다른 클래스에 해당하는 정보를 전달하여 모호한 샘플에 대한 학생 모델의 학습을 유도한다.
실험 결과, SDD는 다양한 교사-학생 모델 쌍에서 기존 로짓 기반 지식 증류 방법 대비 성능 향상을 보였으며, 특히 세부 분류 작업에서 두드러진 성능 향상을 달성하였다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania