이 연구는 토크나이저 선택이 대형 언어 모델의 성능에 미치는 영향을 종합적으로 조사했다. 주요 결과는 다음과 같다:
토크나이저 선택은 모델의 하위 작업 성능과 학습 비용에 상당한 영향을 미칠 수 있다. 특히 일반적으로 사용되는 토크나이저 평가 지표인 fertility와 parity가 모델 성능을 예측하는 데 적합하지 않은 것으로 나타났다.
다국어 토크나이저의 경우 영어 중심 토크나이저에 비해 어휘 크기를 3배 늘려야 한다. 영어 중심 토크나이저를 다국어 모델 학습에 사용하면 성능 저하와 최대 68%의 추가 학습 비용이 발생한다.
BPE 알고리즘은 단일어와 다국어 환경 모두에서 잘 작동하는 것으로 나타났다. 영어의 경우 33k 크기의 어휘가 충분하지만, 본 연구에서 다룬 5개 언어의 다국어 모델은 최대 3배 큰 어휘가 필요했다.
토크나이저의 내부 평가 지표와 모델 성능 간에는 명확한 상관관계가 없었다. 낮은 fertility 값이 필요조건일 수는 있지만 충분조건은 아닌 것으로 나타났다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究