핵심 개념
단일 교사 모델과 역 KL Divergence를 사용한 지식 증류 방식이 제한된 데이터 환경에서 언어 모델의 학습 효율성과 일반화 능력을 향상시키는 데 효과적임을 보여줍니다.
초록
BabyLlama 모델에 적용된 선택적 학습 전략 분석
본 연구 논문에서는 BabyLlama 모델에 적용된 지식 증류 프레임워크와 역 KL Divergence를 사용한 단일 교사 모델 학습 전략의 효과를 분석합니다.
본 연구는 제한된 데이터 환경에서 BabyLlama 모델의 학습 효율성을 향상시키고 다양한 언어 이해 과제에 대한 일반화 능력을 향상시키는 것을 목표로 합니다.
본 연구에서는 BabyLlama 모델을 기반으로 지식 증류 프레임워크를 사용하여 작은 모델을 학습시킵니다. 특히, 기존의 forward KL Divergence 대신 reverse KL Divergence를 사용하여 학생 모델이 교사 모델의 출력 분포 중에서도 높은 확률을 가진 모드에 집중하도록 유도합니다. 또한, 두 개의 교사 모델을 사용하는 대신 단일 교사 모델을 사용하여 학습 과정을 단순화하고 효율성을 높입니다.