核心概念
大規模言語モデル(LLM)は、理論的にはチェーン・オブ・ソート(CoT)を用いることで複雑なカウントタスクを処理できる能力を持つが、実際にはトークン化の方法がカウントの精度に大きく影響を与える。
要約
大規模言語モデルにおけるカウント能力とトークン化の影響
本稿では、大規模言語モデル(LLM)のカウント能力と、トークン化がその能力に与える影響について考察する。
カウントは、人間にとっても計算機にとっても、本質的に帰納的なプロセスである。
RNNのようなリカレントネットワークは、隠れ状態の逐次的な更新により、自然に帰納的なカウント処理が可能である。
一方、TransformerベースのLLMは、固定長の層で隠れ状態を処理するため、RNNのような深い帰納的推論が難しい。
チェーン・オブ・ソート(CoT)は、LLMに中間的な推論ステップを出力させることで、この制限を克服する手段として期待されている。
しかし、CoTを用いても、現実のLLMではカウントタスクにおいて依然としてエラーが発生することがある。
本稿では、LLMのカウント能力に対するトークン化の影響について、特にバイトレベルByte Pair Encoding (BPE)に着目して分析している。
BPEは複数の文字をまとめてトークン化するため、文字レベルのカウントを行う際に、モデルがトークン内の個々の文字を認識できない可能性がある。
この「トークン認識」の欠如が、CoTを用いてもカウントエラーが発生する原因となる。