대규모 언어 모델에서 지식 증류를 위한 Kullback-Leibler 발산 재고찰
대규모 언어 모델에서 정방향 Kullback-Leibler (FKL) 발산과 역방향 Kullback-Leibler (RKL) 발산은 동일한 최적화 목표를 공유하며, 충분한 에폭 후 수렴한다. 그러나 실제로는 제한된 에폭 수에서 FKL은 분포의 헤드 부분에, RKL은 테일 부분에 초점을 맞추므로, 이를 고려한 적응형 Kullback-Leibler (AKL) 발산을 제안한다.