이 연구는 토크나이저 선택이 대형 언어 모델의 성능에 미치는 영향을 종합적으로 조사했다. 주요 결과는 다음과 같다:
토크나이저 선택은 모델의 하위 작업 성능과 학습 비용에 상당한 영향을 미칠 수 있다. 특히 일반적으로 사용되는 토크나이저 평가 지표인 fertility와 parity가 모델 성능을 예측하는 데 적합하지 않은 것으로 나타났다.
다국어 토크나이저의 경우 영어 중심 토크나이저에 비해 어휘 크기를 3배 늘려야 한다. 영어 중심 토크나이저를 다국어 모델 학습에 사용하면 성능 저하와 최대 68%의 추가 학습 비용이 발생한다.
BPE 알고리즘은 단일어와 다국어 환경 모두에서 잘 작동하는 것으로 나타났다. 영어의 경우 33k 크기의 어휘가 충분하지만, 본 연구에서 다룬 5개 언어의 다국어 모델은 최대 3배 큰 어휘가 필요했다.
토크나이저의 내부 평가 지표와 모델 성능 간에는 명확한 상관관계가 없었다. 낮은 fertility 값이 필요조건일 수는 있지만 충분조건은 아닌 것으로 나타났다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
استفسارات أعمق