大規模言語モデルのサイズが増大するにつれ、推論コストが深刻な問題となっている。本研究では、モデル圧縮の手法を探索し、Transformerの後段の注意サブレイヤーを省略することで、性能を維持しつつ大幅な推論時間の短縮が可能であることを実証する。
大規模言語モデルの推論コストを大幅に削減しつつ、タスクパフォーマンスを維持する新しい手法CATSを提案する。
Expert Routerは、複数の専門家モデルを効率的に管理・調整することで、大規模言語モデルの推論処理の高スループット化を実現する。
大規模言語モデルの推論では、膨大な計算量とメモリ使用量が課題となる。本研究では、言語に特化した語彙トリミング手法を提案し、その効果と限界を明らかにした。
大規模言語モデルの推論効率を向上させるために、前に生成された投機的な出力トークンの順序依存性を活用する新しい投機的デコーディング手法を提案する。
文脈的スパース性は単純な理解タスクでは有効だが、推論や論理的タスクでは大幅な性能劣化を引き起こす。Siriusは少数のトークン修正により、文脈的スパース性モデルの性能を大幅に回復させることができる。
投機的デコーディングの手法を改善し、多候補の生成と動的な長さ調整、早期停止の決定モデルを導入することで、大規模言語モデルの推論速度を大幅に向上させる。
KVPrunerは、大規模言語モデルの推論時のキーバリューキャッシュの使用量を大幅に削減し、推論速度を向上させる構造的プルーニング手法である。
大規模言語モデルの推論プロセスを高速化し、出力の質を向上させる新しいデコーディング手法を提案する。補助モデルを用いて複数トークンの同時デコーディングを効率的に実現し、従来手法に比べて高速化と出力品質の向上を実現する。