サブワードトークナイザーの推論方法に関する評価を行い、貪欲な推論方法がトークナイザーでうまく機能し、SaGeが形態的整列で他を凌駕していることを示しています。研究は、英語に特化した新しい内在的評価スイートを使用して、7つのトークナイザー推論方法を4つの異なるアルゴリズムと3つの語彙サイズで分析しました。最も一般的に使用されるトークナイザーでは、貪欲な推論が驚くほどうまく機能し、最近導入されたコンテキストに基づいたトークナイザーであるSaGeは形態的整列で他を上回っています。
この研究は、サブワードトーケン化に関する以前の研究に焦点を当てており、特定の推論方法がタスクに適した語彙用途法を選択する重要性を示しています。さらに、計算効率性からこのベンチマークはLMトレーニング作業で有益な初期段階として使用されることを期待しています。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Omri Uzan,Cr... at arxiv.org 03-05-2024
https://arxiv.org/pdf/2403.01289.pdfDeeper Inquiries