Core Concepts
n-best 재순위화를 활용하여 학생 모델의 정확도를 크게 향상시킬 수 있다.
Abstract
이 논문은 n-best 재순위화를 활용하여 기존의 sequence-level 지식 증류 방법을 개선하는 방법을 제안한다. 기존의 sequence-level 지식 증류 방법은 동일한 아키텍처와 어휘를 가진 교사 모델들의 앙상블을 사용하여 학생 모델의 학습 데이터에 대한 의사 레이블을 생성한다. 이 논문에서는 다양한 아키텍처, 귀납적 편향, 목적 함수를 가진 모델들을 활용하여 n-best 목록을 재순위화하고, 이를 통해 생성된 의사 레이블을 사용하여 학생 모델을 훈련한다.
실험 결과, 제안된 n-best 재순위화 방법을 사용하여 훈련된 학생 모델은 기존 sequence-level 지식 증류 방법 대비 최대 4.0 BLEU 점수 향상을 보였다. 또한 자기 훈련(self-training) 기법을 통해 교사 모델을 점진적으로 개선함으로써 더 나은 의사 레이블을 생성할 수 있었다. 최종적으로 제안된 방법으로 훈련된 학생 모델은 약 70배 더 큰 모델과 유사한 성능을 보였다.
Stats
제안된 n-best 재순위화 방법을 사용하면 최대 10 BLEU 점수 향상을 달성할 수 있다.
제안된 학생 모델은 기존 baseline 대비 최대 4.0 BLEU 점수 향상을 보였다.
제안된 학생 모델은 4.7억 개의 매개변수를 가진 대형 다국어 모델과 유사한 성능을 보였지만, 매개변수 수는 약 70배 더 작다.
Quotes
"n-best 재순위화는 모델의 다양성과 품질에 크게 의존한다."
"자기 훈련 기법을 통해 교사 모델을 점진적으로 개선할 수 있다."
"모델 선택과 전이 집합 축소를 통해 n-best 재순위화의 효율성을 높일 수 있다."