本論文では、大規模言語モデルの推論速度を向上させるためのスペキュレーティブデコーディング(SD)の手法を提案している。SDでは、小型のドラフトモデルを用いて複数のトークンを生成し、大型のターゲットモデルでそれらを並列に検証することで、ターゲットモデルの分布に従った出力を高速に得ることができる。
しかし、ドラフトモデルとターゲットモデルの分布の整合性が低いと、ドラフトモデルが生成したトークンの受け入れ率が低下し、SDの効果が限定的になる。そこで本論文では、知識蒸留(KD)を用いてドラフトモデルをターゲットモデルに適合させることで、SDの速度を大幅に向上させる手法「DistillSpec」を提案している。
DistillSpecでは、以下の2つの設計上の工夫が重要であることを示している:
これらの工夫により、DistillSpecは標準的なSDと比べて10-45%の速度向上を実現している。また、DistillSpecで蒸留したドラフトモデルは、BigBenchHardの23のタスクでも平均26%の速度向上を示すなど、高い汎化性を持つことが確認された。
さらに、DistillSpecをロスのあるSDと組み合わせることで、品質とレイテンシのトレードオフをより細かく制御できることを示している。最後に、複数のサイズの言語モデルが利用可能な実用的なシナリオでは、大型モデルを小型モデルに蒸留してからDistillSpecを適用することで、性能劣化を最小限に抑えつつ6-10倍の高速化が可能であることを明らかにしている。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문