Core Concepts
교사 모델의 각 공간 구성 요소를 학생 모델 전체에 증류하여 학생 모델의 표현력을 향상시킴
Abstract
본 연구는 지식 증류를 위한 새로운 접근 방식을 제안한다. 기존의 지식 증류 방식은 교사 모델의 특징 맵과 학생 모델의 특징 맵을 일대일로 매칭하여 증류하였다. 그러나 이는 교사 모델과 학생 모델의 아키텍처 차이로 인해 동일한 공간 위치에서 의미 정보가 다르다는 점을 간과하였다.
이를 해결하기 위해 본 연구는 대상 인식 트랜스포머(Target-aware Transformer)를 제안한다. 이 방식은 교사 모델의 각 공간 구성 요소를 학생 모델 전체에 증류하여 학생 모델의 표현력을 향상시킨다. 구체적으로, 교사 모델의 각 픽셀 특징이 학생 모델의 모든 공간 위치에 증류되도록 하며, 이때 유사도에 따라 가중치를 부여한다.
또한 대규모 특징 맵에 적용하기 위해 계층적 증류 방식을 제안한다. 이는 두 단계로 구성된다. 첫째, 전체 특징 맵을 패치로 나누어 지역 정보를 증류한다. 둘째, 이 지역 패치들을 요약하여 전역 정보를 증류한다.
제안 방식은 다양한 컴퓨터 비전 벤치마크에서 기존 최신 방식들을 크게 능가하는 성능을 보였다. 이미지 분류 과제에서 tiny ResNet18 모델의 정확도를 70.04%에서 72.41%로 향상시켰고, 의미 분할 과제에서 MobileNetV2 모델의 mIoU를 68.46%에서 73.85%로 개선하였다.
Stats
교사 모델의 수용 영역이 학생 모델보다 크기 때문에 더 많은 의미 정보를 포함한다.
교사 모델과 학생 모델의 아키텍처 차이로 인해 동일한 공간 위치에서 의미 정보가 다르다.
Quotes
"Knowledge distillation becomes a de facto standard to improve the performance of small neural networks."
"People tend to overlook the fact that, due to the architecture differences, the semantic information on the same spatial location usually vary."