핵심 개념
추론 예산과 특수 목적 데이터가 제한된 상황에서 특수 소형 언어 모델(SLM)을 효율적으로 훈련하기 위해서는 풍부한 일반 데이터를 활용한 사전 훈련 전략을 재고해야 하며, 특히 Importance Sampling과 Projected Networks 방법을 통해 효율성을 높일 수 있다.
초록
특수 소형 언어 모델 훈련에 대한 연구 논문 요약
Grangier, D., Katharopoulos, A., Ablin, P., & Hannun, A. (2024). Need a Small Specialized Language Model? Plan Early! arXiv preprint arXiv:2402.01093v2.
본 연구는 제한된 추론 예산과 특수 목적 훈련 데이터의 부족이라는 제약 속에서 특수 소형 언어 모델(SLM)을 효율적으로 훈련하는 최적의 방법을 모색합니다.