Temel Kavramlar
Fox-1은 3단계 데이터 커리큘럼과 효율적인 모델 아키텍처를 통해 제한된 데이터 리소스로도 StableLM-2-1.6B 및 Gemma-2B와 같은 다른 소형 언어 모델보다 뛰어나거나 동등한 성능을 달성할 수 있음을 보여주는 고성능 소형 언어 모델입니다.
Özet
Fox-1 기술 보고서 분석
본 보고서는 3조 토큰의 웹 데이터로 학습된 새로운 소형 언어 모델(SLM) 시리즈인 Fox-1에 대한 기술 보고서입니다. Fox-1은 1.6B 매개변수 모델과 50억 토큰의 지시 따르기 및 다중 턴 대화 데이터로 미세 조정된 Fox-1-1.6B-Instruct-v0.1 모델로 구성됩니다.
본 연구의 주요 목표는 효율적인 사전 학습 및 지시 따르기 기능을 갖춘 고성능 SLM을 개발하는 것입니다. 특히, Fox-1은 훈련 커리큘럼과 관련된 연구 문제를 중점적으로 탐구합니다.
데이터 및 토큰화
Fox-1은 웹에서 스크랩한 문서 데이터 3조 토큰과 지시 따르기 및 다중 턴 대화 데이터 50억 토큰으로 학습되었습니다. 사전 학습 효율성을 높이기 위해 Fox-1-1.6B 모델은 2K-8K 시퀀스 길이를 가진 모든 학습 데이터에 새로운 3단계 데이터 커리큘럼을 도입했습니다. 또한, Fox-1은 256,000개의 대규모 어휘를 사용하여 더 긴 문맥 길이를 효과적으로 나타내고 알 수 없는 단어나 구문의 확률을 줄입니다.
모델 아키텍처
Fox-1은 더 나은 성능을 위해 다양한 개선 사항과 재설계를 도입하면서 Llama에서 영감을 받은 디코더 전용 트랜스포머 아키텍처를 사용합니다. Fox-1은 Gemma-2B(18개 레이어)보다 78%, StableLM-2-1.6B(24개 레이어) 및 Qwen1.5-1.8B(24개 레이어)보다 33% 더 깊은 32개의 자기 주의 레이어로 구성된 더 깊은 아키텍처를 특징으로 합니다. 또한, Fox-1은 입력 및 출력 임베딩 레이어를 공유하여 가중치 활용도를 극대화하고 매개변수 수를 줄입니다.
훈련
Fox-1은 훈련 효율성을 높이기 위해 3단계 커리큘럼 학습 전략을 사용하여 사전 학습됩니다. 1단계에서는 2K 길이의 샘플로 청크된 1.05T 토큰 데이터 세트를 사용하여 모델을 학습합니다. 2단계에서는 청크 길이를 2K에서 4K 및 8K로 늘리고 다양한 도메인의 데이터를 포함합니다. 마지막으로 3단계에서는 지시 따르기, 잡담, 도메인별 질문 답변과 같은 다양한 다운스트림 작업 능력을 위한 기반을 마련하기 위해 62B 토큰의 고품질 데이터로 Fox를 학습합니다.