본 논문은 BERT 모델 압축을 위한 새로운 가중치 상속 증류(WID) 기법을 제안한다. 기존의 증류 기반 방법들은 교사 모델의 행동을 모방하기 위해 추가적인 정렬 손실을 설계하였다. 반면 WID는 추가적인 정렬 손실 없이 교사 모델의 가중치를 직접 상속하여 학생 모델을 학습한다.
WID는 행 압축기와 열 압축기를 설계하여 가중치 매핑을 통해 압축을 수행한다. 행 압축기는 행 매핑에 사용되고, 열 압축기는 열 매핑에 사용된다. 이를 통해 BERT 모델의 각 선형 레이어를 동시에 압축할 수 있다. 또한 압축기 정렬 전략을 설계하여 잔차 연결로 인한 문제를 해결한다.
실험 결과, WID는 기존 증류 기반 방법들을 능가하는 성능을 보였다. 추가 분석을 통해 WID가 정렬 손실 없이도 교사 모델의 주의 집중 패턴을 학습할 수 있음을 확인하였다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor