본 논문은 BERT 모델 압축을 위한 새로운 가중치 상속 증류(WID) 기법을 제안한다. 기존 지식 증류 기반 방법들은 학생 모델이 교사 모델의 행동을 모방하도록 추가적인 정렬 손실을 설계하는데 초점을 맞추었다. 이와 달리 WID는 추가적인 정렬 손실 없이 교사 모델의 가중치를 직접 상속하여 학생 모델을 학습한다.
WID는 가중치 압축 과정을 행 압축기와 열 압축기라는 매핑 함수로 구현한다. 행 압축기와 열 압축기는 구조적 재매개화를 통해 교사 모델의 가중치를 압축한다. 또한 WID는 변압기의 잔차 연결로 인한 압축기 정렬 전략을 설계하였다.
실험 결과, WID는 기존 지식 증류 기반 방법들을 능가하는 성능을 보였다. 추가 분석을 통해 WID가 정렬 손실 없이도 교사 모델의 주의 집중 패턴을 학습할 수 있음을 확인하였다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Taiqiang Wu,... at arxiv.org 03-21-2024
https://arxiv.org/pdf/2305.09098.pdfDeeper Inquiries