核心概念
本稿では、大規模言語モデルの推論高速化において、複数のドラフトモデルからコンテキストに応じて最適なモデルを選択する手法を提案し、オフライン強化学習を用いた選択ポリシーの学習が、さまざまな状況下で効果的な高速化を実現することを示した。
摘要
大規模言語モデルの推論高速化のためのコンテキストアウェアなアシスタント選択
本論文は、大規模言語モデル (LLM) の推論高速化における、コンテキストアウェアなアシスタント選択手法を提案しています。LLMは高性能である一方、その巨大さゆえに推論に時間がかかるという課題があります。この課題に対し、近年では、より軽量な「ドラフトモデル」を用いてLLMの生成を補助する「アシステッドデコーディング」が注目されています。
本研究では、複数のドラフトモデルから、与えられた入力文脈(コンテキスト)に応じて最適なモデルを選択する手法を提案しています。具体的には、オフライン強化学習を用いて、ドラフトモデルの出力とターゲットモデルの出力の類似度に基づいて選択ポリシーを学習します。
提案手法を評価するために、翻訳タスクと要約タスクを用いた実験を行いました。その結果、提案手法は、
複数のドラフトモデルから、与えられたコンテキストに対して最適なモデルを選択できること
ドラフトモデルの出力の質と、ドラフトモデルのサイズによる推論コストのトレードオフを調整できること
少量の学習データでも効果的に学習できること
を示しました。