核心概念
언어 모델에서 중복 서브워드의 존재는 모델의 일반화 능력을 저하시키며, 이는 모델 성능 저하로 이어진다. 그러나 실제 중복 서브워드는 완벽히 동등하지 않아 이를 통한 성능 향상은 제한적이다.
摘要
이 논문은 언어 모델에서 중복 서브워드가 미치는 영향을 분석한다.
먼저 완벽히 동등한 중복 서브워드를 합성적으로 생성하여 실험한 결과, 중복 서브워드로 인해 모델의 데이터 효율성이 약 17% 감소하는 것으로 나타났다. 이는 중복 서브워드에 대한 모델의 일반화 능력이 완벽하지 않음을 보여준다.
다음으로 실제 언어 모델의 어휘에 존재하는 자연스러운 중복 서브워드를 분석했다. 이 경우 중복 서브워드를 통합하면 오히려 모델 성능이 저하되는 것으로 나타났다. 이는 실제 중복 서브워드가 완벽히 동등하지 않으며, 중복 서브워드로 인한 정보 손실이 모델 성능에 부정적인 영향을 미치기 때문이다.
추가적으로 중복 서브워드가 모델의 입력과 출력에 미치는 영향을 분석했다. 중복 서브워드가 많이 포함된 입력 문맥은 모델의 예측 성능을 저하시키며, 중복 서브워드 자체의 예측 성능도 낮은 것으로 나타났다. 이를 보완하기 위해 중복 서브워드의 의미 차이를 학습할 수 있는 추가 입력을 제공하면 성능 향상이 가능했다.
종합적으로 이 연구는 언어 모델에서 중복 서브워드가 미치는 영향을 체계적으로 분석하고, 실제 중복 서브워드의 한계를 밝혀냈다. 이를 통해 중복 서브워드 문제를 해결하기 위한 방향을 제시한다.
統計資料
완벽히 중복된 서브워드 환경에서 모델은 약 17% 더 많은 데이터가 필요하다.
실제 중복 서브워드가 많이 포함된 입력 문맥은 모델의 예측 성능을 저하시킨다.
중복 서브워드 자체의 예측 성능도 낮은 편이다.
引述
"Tokenisation is a core part of language mod-
els (LMs). It involves splitting a character se-
quence into subwords which are assigned ar-
bitrary indices before being served to the LM."
"Importantly, most tokenisation algorithms
are lossless: the original character sequence is
perfectly recoverable from its tokenised version."
"Intuitively, if the model had access to
character-level information, it should trivially
generalise what it learns from one of these forms
to the other."