本論文では、大規模言語モデル(LLM)を高圧縮テキストで学習する方法を探索している。従来のサブワードトークナイザーは4倍程度の圧縮率しか達成できないが、ニューラルネットワークを用いた圧縮手法では12倍以上の圧縮が可能である。高圧縮テキストを直接LLMの入力として使えば、学習効率と推論速度の向上が期待できる。
しかし、強い圧縮は入力テキストを不透明なものにしてしまい、LLMが学習しにくくなる問題がある。特に、算術符号化(Arithmetic Coding)による圧縮では、LLMが全く学習できないことが分かった。これは、算術符号化のプロセス自体が複雑すぎて、LLMが模倣するのが困難であるためと考えられる。
そこで本研究では、「Equal-Info Windows」と呼ぶ新しい圧縮手法を提案した。これは、テキストを固定長のウィンドウに分割し、各ウィンドウの情報量が等しくなるように圧縮するものである。この手法により、LLMが圧縮テキストを学習できるようになった。
最良の設定では、16ビットのトークンを使い、5.3倍の圧縮率を達成しつつ、バイトレベルのベースラインモデルを上回る性能を示した。一方で、従来の単語分割トークナイザーには及ばず、トークンとテキストの対応関係の安定性が課題として残された。
今後の課題として、高圧縮率と高い学習性能を両立する圧縮手法の開発が挙げられる。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문