본 연구는 전통적인 지식 증류 방식이 서로 다른 과제를 가진 교사 모델과 학생 모델 간의 지식 전달에 효과적이지 않다는 점을 지적한다. 이는 교사 모델의 과제 특화 특징이 학생 모델의 성능을 저하시키기 때문이다.
이를 해결하기 위해 본 연구는 역투영 기법을 제안한다. 이 기법은 교사 모델의 특징을 학생 모델의 특징 공간으로 투영할 때 과제 특화 특징을 효과적으로 제거할 수 있다. 실험 결과, 역투영 기법을 사용하면 다양한 과제 쌍에서 최대 7.47%의 성능 향상을 달성할 수 있다.
또한 본 연구는 지식 증류 손실 함수를 지식 전달 성분과 스펙트럼 정규화 성분으로 분해할 수 있음을 보인다. 이를 바탕으로 교사 모델 없이도 성능 향상을 달성할 수 있는 새로운 정규화 손실 함수를 제안한다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Dylan Auty,R... at arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14494.pdfDeeper Inquiries