핵심 개념
대규모 언어 모델(LLM)에서 널리 사용되는 토큰화 방식이 입력 텍스트의 미세한 변화에 취약하며, 이는 모델의 성능 저하로 이어질 수 있다.
초록
토큰화의 한계: 토큰화의 저주와 완화 전략 분석
본 연구 논문에서는 대규모 언어 모델(LLM)에서 텍스트를 토큰 단위로 분할하는 토큰화 과정의 고질적인 문제점과 그 영향을 심층 분석하고 있습니다. 저자들은 이러한 문제점을 '토큰화의 저주'라고 명명하고, 다양한 실험을 통해 LLM의 성능과 토큰화 방식 간의 상관관계를 면밀히 조사했습니다.
본 논문은 기존 토큰화 방식의 한계점을 분석하고, LLM 성능에 미치는 영향을 실증적으로 규명하는 것을 목표로 합니다. 특히, 토큰화 과정에서 발생하는 오류 민감성, 길이 정보 손실, 토큰 내부 구조 인식 부재 등을 '토큰화의 저주'로 정의하고, 이를 해결하기 위한 다양한 방법론을 제시하고 있습니다.
저자들은 세 가지 주요 연구 질문(RQ)을 설정하고, 각 질문에 대한 답을 찾기 위해 다양한 실험을 설계하고 수행했습니다.
RQ1: 복잡한 문제 해결: 토큰화에 민감한 아나그램 및 복잡한 수학적 언어 이해 문제를 통해 LLM의 성능을 평가했습니다.
RQ2: 토큰 구조 탐구: 대소문자 조작, 길이 계산, 길이 민감성 작업 등을 통해 LLM의 토큰 구조 이해도를 심층 분석했습니다.
RQ3: 오타 변형에 대한 복원력: MMLU, TruthfulQA, GSM8K, HumanEval 등 다양한 데이터셋을 기반으로 LLM의 오타 변형에 대한 복원력을 평가하기 위한 벤치마크를 구축하고, 다양한 규모의 LLM을 대상으로 실험을 진행했습니다.