Khái niệm cốt lõi
トークナイザーの選択はLLMモデルの下流パフォーマンスに重大な影響を与える可能性がある。
Tóm tắt
トークナイザーの選択がLLMモデルに及ぼす影響に焦点を当てた包括的な研究を行った。
24種類のモノリンガルおよびマルチリンガルLLMを訓練し、異なるトークナイザーアルゴリズムとパラメータ化を比較した。
トークナイザーの選択がモデルの下流パフォーマンスと訓練コストに大きく影響することを示唆。
モデル訓練時の計算コストやタスクパフォーマンスに関する詳細な分析を提供。
Thống kê
24種類のモデルを2.6Bパラメータ規模で訓練した。
英語中心のトークナイザーよりも多言語対応トークナイザーが3倍以上の語彙サイズを必要とすることが示された。
多言語文書では、英語中心トークナイザーは下流パフォーマンス低下と追加訓練コスト増加につながる可能性あり。
Trích dẫn
"Tokenizer choice can significantly impact the model’s downstream performance and training costs."
"Multilingual tokenizers trained on the five most frequent European languages require vocabulary size increases of factor three in comparison to English."