Core Concepts
圧縮はトークン化の質を評価し、モデルパフォーマンスに影響を与える重要な指標である。
Abstract
BPEが基盤であるトークン化プロセスにおける圧縮の重要性に焦点を当て、英語およびトルコ語で実験を行いました。結果は、圧縮能力がモデルパフォーマンスと密接に関連しており、特に生成タスクにおいて顕著であることを示しています。さらに、単語の頻度がモデルパフォーマンスに及ぼす影響や異なるトークナイザー間の類似性も分析されました。
Stats
1M-DOCトークナイザー:9,336,052個のトークン長
1K-DOCトークナイザー:9,541,368個のトークン長
100-DOCトークナイザー:10,489,029個のトークン長
10-DOCトークナイザー:15,126,769個のトークン長
1-DOCトークナイザー:20,647,861個のトークン長
CHAR(文字レベル)トークナイザ―:39,480,577個のトークン長
Quotes
"Building better compressing tokenizers is a fruitful avenue for further research and for improving overall model performance."
"Tokenization’s effect is better assessed through generation tasks, rather than classification tasks."