本稿では、テンソル並列化された大規模言語モデル(LLM)において、同期時の通信コストを削減するための新しい量子化手法を提案する。これは、通信される特徴量の一部をBF16精度で保持し、残りを4ビット精度に量子化することで実現する。この手法により、パフォーマンスの大幅な低下を抑えつつ、通信量を大幅に削減できることを示す。
事前学習済み大規模言語モデル(LLM)を、より小さく、推論効率の高い専門家混合(MoE)モデルにリファクタリングする新しいフレームワーク「Read-ME」が提案されており、これにより高コストなゼロからの学習を回避できる。
早期退出型大規模言語モデルにおいて、動的な語彙プルーニングを用いることで、推論の効率性を大幅に向上させることができる。
大規模言語モデル(LLM)の推論において、従来の前置詞ベースのコンテキストキャッシングは、トークン列の完全一致が必要なため、再利用性が制限されていた。本稿では、トークンの位置に依存せず、モジュール式のKVキャッシュ再利用を可能にする位置独立コンテキストキャッシング(PIC)を導入したLLMサービングシステム「Epic」を提案する。Epicは、静的アテンションのスパース性を利用して精度回復のための再計算を最小限に抑えるAttnLinkと、意味的な一貫性を維持するカスタマイズ可能なチャンキング手法であるKVSplitの2つの主要な設計を特徴としている。
大規模言語モデル(LLM)の推論において、段階的に精度を下げる混合精度デコーディングを用いることで、出力品質を維持しながらメモリ使用量と計算コストを削減できる。
大規模言語モデルの推論プロセスを高速化し、出力の質を向上させる新しいデコーディング手法を提案する。補助モデルを用いて複数トークンの同時デコーディングを効率的に実現し、従来手法に比べて高速化と出力品質の向上を実現する。
KVPrunerは、大規模言語モデルの推論時のキーバリューキャッシュの使用量を大幅に削減し、推論速度を向上させる構造的プルーニング手法である。
投機的デコーディングの手法を改善し、多候補の生成と動的な長さ調整、早期停止の決定モデルを導入することで、大規模言語モデルの推論速度を大幅に向上させる。
文脈的スパース性は単純な理解タスクでは有効だが、推論や論理的タスクでは大幅な性能劣化を引き起こす。Siriusは少数のトークン修正により、文脈的スパース性モデルの性能を大幅に回復させることができる。
大規模言語モデルの推論効率を向上させるために、前に生成された投機的な出力トークンの順序依存性を活用する新しい投機的デコーディング手法を提案する。