Concepts de base
대규모 언어 모델에서 정방향 Kullback-Leibler (FKL) 발산과 역방향 Kullback-Leibler (RKL) 발산은 동일한 최적화 목표를 공유하며, 충분한 에폭 후 수렴한다. 그러나 실제로는 제한된 에폭 수에서 FKL은 분포의 헤드 부분에, RKL은 테일 부분에 초점을 맞추므로, 이를 고려한 적응형 Kullback-Leibler (AKL) 발산을 제안한다.
Résumé
이 연구는 대규모 언어 모델(LLM)에서 지식 증류(KD)를 위해 널리 사용되는 Kullback-Leibler 발산에 대해 재고찰한다.
먼저, 기존 연구에서 주장했던 정방향 Kullback-Leibler (FKL) 발산의 평균 추구 행동과 역방향 Kullback-Leibler (RKL) 발산의 모드 추구 행동이 LLM에서는 성립하지 않음을 실험적, 이론적으로 입증한다. 대신 FKL과 RKL은 동일한 최적화 목표를 공유하며, 충분한 에폭 후 수렴한다.
그러나 실제로는 LLM을 그렇게 많은 에폭 동안 학습하지 않는다. 한편 초기 에폭에서 FKL은 분포의 헤드 부분에, RKL은 테일 부분에 초점을 맞추는 것을 발견했다. 이에 따라 FKL과 RKL을 적응적으로 결합하는 Adaptive Kullback-Leiber (AKL) 발산 방법을 제안한다.
실험 결과, AKL은 다양한 작업에서 기존 방법들을 능가하며, GPT-4를 통한 평가에서도 생성된 응답의 다양성과 품질이 향상되었음을 보여준다.
Stats
대규모 언어 모델은 13억 개의 매개변수를 가지고 있다.
지식 증류를 통해 모델 크기를 줄이면서도 성능을 유지할 수 있다.
정방향 Kullback-Leibler (FKL) 발산과 역방향 Kullback-Leibler (RKL) 발산은 동일한 최적화 목표를 공유한다.
실제 실험에서는 50 에폭 이상 학습하지 않는다.
초기 에폭에서 FKL은 분포의 헤드 부분에, RKL은 테일 부분에 초점을 맞춘다.
Citations
"Kullback-Leiber 발산은 대규모 언어 모델(LLM)을 압축하기 위해 널리 사용되어 왔다."
"역방향 Kullback-Leibler (RKL) 발산은 모드 추구 행동을 보이고 따라서 정방향 Kullback-Leibler (FKL) 발산보다 선호된다고 이전 연구에서 주장했다."
"그러나 이 연구는 실험적, 이론적으로 LLM에서 모드 추구나 평균 추구 행동이 나타나지 않음을 보여준다."