Core Concepts
ブロック並列デコーディング(BPD)は、自己回帰型言語モデルの推論速度を向上させる手法として提案されている。本研究では、BPDの予測特性を分析し、トップkの候補から小規模な言語モデルを用いて効率的にドラフトを生成する手法を提案する。これにより、BPDの平均受理プレフィックス長を向上させることができる。
Abstract
本研究では、ブロック並列デコーディング(BPD)の予測特性を分析し、その結果に基づいて推論速度を向上させる手法を提案している。
まず、BPDドラフトにおける以下の特性を観察した:
隣接するトークンの繰り返しが多数存在する
各ヘッドの予測確信度が低下する傾向にある
オラクルのトップk選択によって大幅な性能向上の余地がある
これらの観察結果に基づき、以下の2つの手法を提案した:
小規模な自己回帰型言語モデルを用いたローカルなリスコアリング
n-gramモデルを用いたグローバルなリスコアリング
これらの手法により、BPDドラフトの品質を向上させ、平均受理プレフィックス長を改善することができた。特に、繰り返しの修正が大きな効果を発揮した。
提案手法は、大規模言語モデルの推論速度向上に貢献するものと期待される。
Stats
BPDドラフトにおける隣接トークンの繰り返し率は20%から75%と高い
BPDヘッドの予測確信度は初期トークンで高く、後続トークンで低下する傾向がある
オラクルのトップk選択によって、ベースラインに比べて5%から80%の性能向上が期待できる
Quotes
"BPDドラフトは、各ヘッドの予測が独立しているため、大量のトークン繰り返しが生じる"
"BPDヘッドの予測確信度は初期トークンで高く、後続トークンで低下する傾向がある"
"オラクルのトップk選択によって、ベースラインに比べて大幅な性能向上が期待できる"