Keskeiset käsitteet
본 논문에서는 지식 증류 과정에서 교사 모델과 학생 모델 간의 성능 차이를 효과적으로 관리하여 지식 전달 효율성을 향상시키는 새로운 방법인 GPD(Gap Preserving Distillation)를 제안합니다.
Tiivistelmä
GPD(Gap Preserving Distillation) : 동적 교사를 사용한 양방향 매핑 구축을 통한 성능 차이를 유지하는 지식 증류
본 연구는 지식 증류 과정에서 교사 모델과 학생 모델 간의 큰 성능 차이가 발생하는 문제를 해결하고, 효과적인 지식 전달을 위한 새로운 방법을 제시하는 것을 목표로 합니다.
본 연구에서는 GPD(Gap Preserving Distillation)라는 새로운 지식 증류 방법을 제안합니다. GPD는 학생 모델과 함께 동적으로 학습되는 추가적인 교사 모델(DT, Dynamic Teacher)을 도입하여 교사-학생 모델 간의 성능 차이를 적절하게 유지합니다.
주요 기술은 다음과 같습니다.
동적 교사(DT) 모델: 학생 모델과 동일한 초기 정확도를 가지도록 Inverse Reparameterization(IR) 기법을 사용하여 학생 모델을 확장하여 생성합니다.
IR(Inverse Reparameterization): 채널 및 브랜치 차원을 따라 학생 모델을 손실 없이 확장하여 더 큰 용량을 가진 동적 교사 모델을 구축합니다.
CBR(Channel-Branch Reparameterization): 채널 레벨 재매개변수화는 확장된 채널을 학생 모델의 원래 채널 차원과 일치하도록 조정하고, 브랜치 레벨 재매개변수화는 확장된 다중 브랜치 유닛을 단일 브랜치 구조로 병합하여 학생 모델이 동적 교사로부터 지식을 효과적으로 상속받도록 합니다.
매개변수 공유 전략: CBR을 기반으로 학생 모델이 확장된 동적 교사로부터 매개변수를 직접 상속받을 수 있도록 하여 계산 비용을 줄이고 교사의 풍부한 지식 표현을 활용할 수 있도록 합니다.