Core Concepts
大規模言語モデルの精度を損なうことなく、意味適応トークンを導入することで、高品質なドラフトトークンを生成し、モデルの推論速度を大幅に向上させることができる。
Abstract
本研究では、大規模言語モデル(LLM)の推論速度を向上させるための「Speculative Decoding with Semantic Adaptive Tokens (SDSAT)」を提案している。主な取り組みは以下の通り:
意味適応トークンを導入することで、モデルの構造を変更することなく、高品質なドラフトトークンを生成できるようにモデルをファインチューニングする。
標準トークンの訓練に影響を与えないトレーニング手法を採用することで、最小限のトレーニングコストで並列デコーディング能力を獲得できる。
グリーディーサーチとニュークリアサンプリングを組み合わせた「2ステップ(ドラフト→検証)」の生成戦略を設計した。
実験の結果、CodeLlama-13Bと7Bモデルで、それぞれ3.5倍と3.0倍の速度向上を達成した。
Stats
7Bモデルでは、HumanEvalベンチマークでスループットが3.1倍向上した。
13Bモデルでは、HumanEvalベンチマークでスループットが3.5倍向上した。
Quotes
「大規模言語モデルは、構造を変更することなく、意味適応トークンを導入することで、高品質なドラフトトークンを生成できることを検証した。」
「提案する訓練手法により、モデルの全体的な精度を損なうことなく、正確なドラフトトークンを生成する能力を獲得できる。」
「効率的な「2ステップ(ドラフト→検証)」の生成手法を提案し、グリーディーサーチとニュークリアサンプリングの両方で大幅な高速化を実現した。」