大規模言語モデル(LLM)の推論高速化において、文レベルの意味情報を活用したスパース活性化手法であるCoreInferは、従来のトークンレベルの手法と比較して、精度を維持しながら大幅な高速化を実現する。
本稿では、大規模言語モデルの推論高速化において、複数のドラフトモデルからコンテキストに応じて最適なモデルを選択する手法を提案し、オフライン強化学習を用いた選択ポリシーの学習が、さまざまな状況下で効果的な高速化を実現することを示した。
生成系大規模言語モデルの推論高速化は、CPU、GPU、FPGA、ASIC、PIM/NDP などの多様なハードウェアプラットフォームと、量子化、スパース化、高速デコーディングなどのソフトウェア最適化手法を組み合わせることで実現できる。
SwiftKVは、入力トークンの処理に必要な計算量とメモリ使用量を削減することで、大規模言語モデルの推論を高速化する新しいモデル変換手法です。
大規模言語モデルの推論速度を2-3倍高速化するための投機的デコーディングモデルの設計と訓練
統一的なレイヤースキップ戦略を提案し、入力に依存しない安定した高速化を実現する。