Alapfogalmak
언어 모델은 모델 크기에 비례하여 2비트/매개변수의 비율로 지식을 저장할 수 있다.
Kivonat
이 논문은 언어 모델의 지식 저장 용량 확장 법칙을 연구합니다. 주요 내용은 다음과 같습니다:
- GPT2 모델은 충분한 학습 후 일관되게 2비트/매개변수의 지식 저장 용량 비율을 달성합니다. 이는 모델 크기, 깊이, 너비, 데이터 크기 및 유형, 하이퍼파라미터 등 다양한 설정에서 확인되었습니다.
- 각 지식 조각이 1000번 노출되면 2비트/매개변수의 용량 비율을 달성하지만, 100번 노출되면 1비트/매개변수로 떨어집니다. 이는 드문 지식은 더 적은 용량으로 저장됨을 의미합니다.
- LLaMA, Mistral, GPT2 등 다양한 모델 아키텍처를 비교한 결과, 1000번 노출 시 모든 모델이 2비트/매개변수 비율을 달성하지만, 100번 노출 시 LLaMA/Mistral은 GPT2보다 1.3배 낮은 성능을 보였습니다. 이는 GatedMLP 사용이 원인인 것으로 확인되었습니다.
- 양자화 실험 결과, int8 양자화는 모델 용량을 유지하지만 int4 양자화는 0.7비트/매개변수로 감소시킵니다.
- MoE 모델은 총 매개변수의 8.8%만 사용하지만 기본 확장 법칙 대비 1.3배 낮은 용량 비율을 보입니다.
- 유용하지 않은 "쓰레기" 데이터는 모델의 지식 저장 용량을 크게 감소시킵니다. 하지만 데이터 앞에 도메인 이름을 추가하면 이를 완화할 수 있습니다.
전반적으로 이 연구는 언어 모델의 지식 저장 용량을 체계적으로 분석하는 새로운 접근법을 제시합니다. 이를 통해 모델 선택, 데이터 준비, 향후 연구 방향 등에 대한 통찰을 얻을 수 있습니다.
Statisztikák
충분한 학습 후 GPT2 모델은 일관되게 2비트/매개변수의 지식 저장 용량 비율을 달성합니다.
각 지식 조각이 100번 노출되면 모델의 용량 비율이 1비트/매개변수로 떨어집니다.
LLaMA/Mistral 모델은 100번 노출 시 GPT2보다 1.3배 낮은 용량 비율을 보입니다.
int8 양자화는 모델 용량을 유지하지만 int4 양자화는 0.7비트/매개변수로 감소시킵니다.
MoE 모델은 총 매개변수의 8.8%만 사용하지만 기본 확장 법칙 대비 1.3배 낮은 용량 비율을 보입니다.
유용하지 않은 "쓰레기" 데이터는 모델의 지식 저장 용량을 크게 감소시킵니다.
Idézetek
"언어 모델은 모델 크기에 비례하여 2비트/매개변수의 비율로 지식을 저장할 수 있다."
"각 지식 조각이 100번 노출되면 모델의 용량 비율이 1비트/매개변수로 떨어진다."
"LLaMA/Mistral 모델은 100번 노출 시 GPT2보다 1.3배 낮은 용량 비율을 보인다."