핵심 개념
데이터 업사이클링을 통해 교사 모델의 지식을 학생 모델에 효과적으로 전달하고, 라벨 일관성 정규화를 통해 학생 모델의 성능과 강건성을 향상시킨다.
초록
이 논문은 이미지 초해상도 문제에서 지식 증류(Knowledge Distillation, KD) 기법의 한계를 분석하고, 이를 해결하기 위한 새로운 접근법인 데이터 업사이클링 기반 지식 증류(DUKD) 방법을 제안한다.
먼저, 기존 KD 기법은 교사 모델의 출력이 고품질 이미지 분포에 대한 노이즈 근사치라는 초해상도 작업의 특성을 간과하여 제한적인 효과를 보인다는 점을 지적한다.
이를 해결하기 위해 DUKD는 다음 두 가지 핵심 모듈을 제안한다:
-
데이터 업사이클링: 교사 모델이 생성한 업사이클링된 in-domain 데이터를 활용하여 학생 모델에 교사 모델의 지식을 전달한다. 이를 통해 교사 모델의 지식을 GT 상한선을 넘어 활용할 수 있다.
-
라벨 일관성 정규화: 학생 모델에 대해 선택적인 가역 데이터 증강을 적용하여 교사 모델의 출력과 일관성을 유지하도록 한다. 이는 학생 모델의 일반화 성능을 향상시킨다.
실험 결과, DUKD는 다양한 초해상도 모델과 작업에서 기존 KD 기법을 크게 능가하는 성능을 보였다. 또한 다른 모델 압축 기법과 결합하여 시너지 효과를 발휘할 수 있음을 확인하였다.
통계
교사 모델의 출력은 고품질 이미지 분포에 대한 노이즈 근사치이다.
기존 KD 기법은 교사 모델의 지식을 효과적으로 전달하지 못한다.
데이터 업사이클링을 통해 교사 모델의 지식을 학생 모델에 효과적으로 전달할 수 있다.
라벨 일관성 정규화를 통해 학생 모델의 일반화 성능을 향상시킬 수 있다.
인용구
"Knowledge distillation (KD) compresses deep neural networks by transferring task-related knowledge from cumbersome pre-trained teacher models to compact student models."
"Since the teacher model's output, as a noisy approximation to the GT image, contains barely extra information over GT, so the "dark knowledge" of teacher model are hardly transferred to student model through KD."
"The data upcycling module utilizes the training pairs to build auxiliary training examples which are used by teacher model to teach the student model. It frees the teacher model from being an inaccurate repeater of the GT labels."