핵심 개념
제한된 계산 자원 하에서 대규모 데이터 중에서 대규모 언어 모델의 성능을 향상시킬 수 있는 최적의 데이터 혼합 및 선별 방법을 제안한다.
초록
이 논문은 대규모 언어 모델의 성능 향상을 위한 데이터 혼합 및 선별 솔루션을 제안한다.
먼저 데이터 중복 제거, 저수준 및 고수준 품질 필터링, 다양성 선별 등의 단계를 거친다.
저수준 품질 필터링에서는 텍스트 길이와 언어 식별 필터링을 적용한다.
고수준 품질 필터링에서는 언어 모델 기반의 perplexity 필터링, 지시 따르기 난이도(IFD) 필터링, IFD-Vote 필터링 기법을 도입한다.
다양성 선별을 위해 k-center-greedy 알고리즘을 활용한다.
이러한 방법론을 통해 BetterMixture 챌린지에서 3위를 달성했다.
통계
데이터 중복 제거 후 샘플 수가 340만 개에서 270만 개로 감소했다.
텍스트 길이 필터링 후 20-2000 범위의 샘플만 남겼다.
언어 식별 필터링 후 영어와 중국어 점수가 0.2 이상인 샘플만 남겼다.
LLM perplexity 필터링 후 20-1000 범위의 샘플만 남겼다.
LLM IFD 필터링 후 0.2-0.9 범위의 샘플만 남겼다.
인용구
"제한된 계산 자원 하에서 대규모 데이터 중에서 대규모 언어 모델의 성능을 향상시킬 수 있는 최적의 데이터 혼합 및 선별 방법을 제안한다."
"고수준 품질 필터링에서는 언어 모델 기반의 perplexity 필터링, 지시 따르기 난이도(IFD) 필터링, IFD-Vote 필터링 기법을 도입한다."
"다양성 선별을 위해 k-center-greedy 알고리즘을 활용한다."