본 논문은 BERT 모델 압축을 위한 새로운 가중치 상속 증류(WID) 기법을 제안한다. WID는 추가적인 정렬 손실 없이 교사 모델의 가중치를 직접 상속하여 학생 모델을 학습한다.
본 논문은 BERT 모델 압축을 위한 새로운 가중치 상속 증류(WID) 기법을 제안한다. WID는 추가적인 정렬 손실 없이 교사 모델의 가중치를 직접 상속하여 학생 모델을 학습한다.
본 논문은 BERT 모델 압축을 위한 새로운 가중치 상속 증류(WID) 기법을 제안한다. WID는 추가적인 정렬 손실 없이 교사 모델의 가중치를 직접 상속하여 학생 모델을 학습한다.