本論文は、大規模言語モデル(LLM)の推論プロセスを高速化し、出力の質を向上させる新しいデコーディング手法を提案している。
従来の単一トークンデコーディングでは、各ステップで1つのトークンしか生成できないため、推論に時間とエネルギーがかかるという課題があった。一方、複数トークン同時デコーディング(MTJD)は、各ステップで複数のトークンを同時に生成することで、パフォーマンスを向上させられるが、大規模モデルから直接サンプリングするのは計算コストが高すぎるという問題がある。
そこで本論文では、MTJD を効率的に近似する「多トークン補助デコーディング(MTAD)」を提案している。MTAD は、小規模な補助モデルを使って複数トークンの共同分布を推定し、大規模モデルでこれらのトークンを並列に検証することで、MTJD に近い性能を実現しつつ、大幅な高速化と省エネルギー化を実現する。
理論的な分析と実験的な評価の結果、MTAD は従来手法に比べて21.2%低いパープレキシティを達成し、かつ1.42倍の高速化と1.54倍のエネルギー削減を実現することが示された。これにより、大規模言語モデルの持続可能で高性能な展開が促進されることが期待される。
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Zongyue Qin,... ที่ arxiv.org 10-03-2024
https://arxiv.org/pdf/2407.09722.pdfสอบถามเพิ่มเติม