이 논문은 신경망 압축 텍스트를 활용하여 대규모 언어 모델을 학습하는 방법을 탐구한다. 표준 서브워드 토크나이저는 텍스트를 약 4배 압축하지만, 신경망 압축기는 훨씬 높은 압축률을 달성할 수 있다. 신경망 압축 텍스트를 직접 대규모 언어 모델에 학습시킬 수 있다면 학습 및 추론 효율성 향상, 긴 텍스트 처리 용이성 등의 이점을 얻을 수 있다.
그러나 강력한 압축은 불투명한 출력을 생성하여 학습에 적합하지 않다는 문제가 있다. 특히 산술 부호화를 통해 압축된 텍스트는 대규모 언어 모델이 학습하기 어려운 것으로 나타났다. 이를 극복하기 위해 Equal-Info Windows라는 새로운 압축 기법을 제안했다. 이 방법은 텍스트를 정보량이 동일한 블록으로 분할하여 압축한다. 이를 통해 신경망 압축 텍스트 학습이 가능해졌으며, 규모가 커질수록 성능이 향상되었다. 또한 바이트 수준 기준선보다 넓은 격차로 우수한 퍼플렉서티와 추론 속도 성능을 보였다.
한편 제안 방식의 성능은 서브워드 토크나이저 기반 모델에 미치지 못했다. 이는 제안 방식의 토큰과 단어 간 매핑이 상대적으로 불안정하기 때문으로 보인다. 향후 높은 압축률과 학습 용이성을 동시에 달성할 수 있는 신경망 토크나이저 개발이 흥미로운 연구 주제가 될 것이다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések