이 연구는 대규모 언어 모델(LLM)에서 지식 증류(KD)를 위해 널리 사용되는 Kullback-Leibler 발산에 대해 재고찰한다.
먼저, 기존 연구에서 주장했던 정방향 Kullback-Leibler (FKL) 발산의 평균 추구 행동과 역방향 Kullback-Leibler (RKL) 발산의 모드 추구 행동이 LLM에서는 성립하지 않음을 실험적, 이론적으로 입증한다. 대신 FKL과 RKL은 동일한 최적화 목표를 공유하며, 충분한 에폭 후 수렴한다.
그러나 실제로는 LLM을 그렇게 많은 에폭 동안 학습하지 않는다. 한편 초기 에폭에서 FKL은 분포의 헤드 부분에, RKL은 테일 부분에 초점을 맞추는 것을 발견했다. 이에 따라 FKL과 RKL을 적응적으로 결합하는 Adaptive Kullback-Leiber (AKL) 발산 방법을 제안한다.
실험 결과, AKL은 다양한 작업에서 기존 방법들을 능가하며, GPT-4를 통한 평가에서도 생성된 응답의 다양성과 품질이 향상되었음을 보여준다.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Taiqiang Wu,... klokken arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02657.pdfDypere Spørsmål