본 연구 논문에서는 대규모 언어 모델(LLM)의 성능을 향상시키기 위해 새로운 토큰화 기법인 LBPE(Long-token-first Byte Pair Encoding)를 제안합니다. LBPE는 기존 BPE(Byte Pair Encoding)의 단점을 보완하여 긴 토큰과 짧은 토큰 간의 학습 불균형 문제를 해결하고, 다양한 언어 모델링 작업에서 더 나은 성능을 달성합니다.
BPE는 단어를 하위 단어 단위로 분해하여 어휘 사외 문제를 방지하고 입력 데이터를 유연하고 의미적으로 정확하게 표현할 수 있는 토큰화 기법입니다. 그러나 BPE는 짧은 토큰을 우선적으로 병합하는 경향이 있어 긴 토큰의 발생 빈도가 낮아지는 문제점을 가지고 있습니다. 긴 토큰은 풍부한 의미 정보를 담고 있지만, 낮은 발생 빈도로 인해 모델 학습에 어려움을 겪습니다.
LBPE는 긴 토큰을 우선적으로 병합하여 긴 토큰의 발생 빈도를 높이고 짧은 토큰과의 학습 불균형 문제를 완화합니다. 구체적으로, LBPE는 토큰의 어휘 순위가 아닌 토큰 길이의 역순위를 기준으로 토큰을 병합합니다. 즉, 긴 토큰일수록 병합 우선순위가 높아져 최종 토큰 표현에서 더 많이 나타나게 됩니다.
본 논문에서는 다양한 언어 모델링 작업(BoolQ, HellaSwag, OpenBookQA, PIQA, SIQA, StoryCloze, Winogrande)을 통해 LBPE의 효과를 검증했습니다. 실험 결과, LBPE는 다양한 모델 크기(468M, 1.2B, 6.7B)와 어휘 크기(32K, 64K, 128K)에서 기존 BPE보다 일관되게 높은 성능을 보였습니다. 특히, LBPE는 기존 LLM에 대한 추가적인 사전 학습 단계에서도 효과적이며, 짧은 추가 학습만으로도 성능 향상을 기대할 수 있습니다.
LBPE는 긴 토큰을 우선적으로 병합하여 긴 토큰의 발생 빈도를 높이고 짧은 토큰과의 학습 불균형 문제를 완화하는 효과적인 토큰화 기법입니다. LBPE는 다양한 언어 모델링 작업에서 기존 BPE보다 뛰어난 성능을 보였으며, 기존 LLM에 대한 추가적인 사전 학습 단계에서도 효과적으로 적용될 수 있습니다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문