제한된 레이블 데이터에서 전문화된 소규모 언어 모델과 일반적인 대규모 언어 모델의 텍스트 분류 성능 비교: 100개의 레이블 데이터로 동등한 성능 달성
전문화된 소규모 언어 모델은 일반적인 대규모 언어 모델에 비해 적은 수의 레이블 데이터(10-1000개)로도 동등하거나 더 나은 성능을 달성할 수 있다. 이는 데이터셋 특성에 따라 다르며, 이진 분류 데이터셋의 경우 최대 5000개의 레이블 데이터가 필요한 반면 다중 분류 데이터셋의 경우 최대 100개의 레이블 데이터로 충분하다. 성능 변동성을 고려할 경우 필요한 레이블 데이터 수가 100-200% 증가하며, 특정 경우 최대 1500%까지 증가할 수 있다.