大規模言語モデルの精度を損なうことなく、意味適応トークンを導入することで、高品質なドラフトトークンを生成し、モデルの推論速度を大幅に向上させることができる。
ルックアップテーブルを活用した量子化行列乗算手法LUT-GEMMを提案し、大規模言語モデルのインファレンス時の計算コストと必要GPU数を大幅に削減する。
本研究では、事前学習済みの通常のTransformerモデルを線形計算量のモデルに変換する新しい手法「DiJiang」を提案する。Discrete Cosine Transform (DCT)を用いた周波数領域でのカーネル化により、大幅な計算コストの削減と推論速度の向上を実現する。
大規模言語モデルの推論速度を大幅に向上させる、アダプティブN-gramパラレルデコーディングアルゴリズムを提案する。
大規模言語モデルの推論時の遅延を解決するため、中間層の隠れ状態を予測して並列デコーディングを行う新しい手法を提案する。
精度整列基準に基づいて、KVキャッシュ内の各パラメータの必要精度を動的に決定し、メモリアクセス量を削減することで、大規模言語モデルの推論速度を向上させる。
大規模言語モデル(LLM)のデコーディングを高速化するため、位置持続スパースアテンションを用いた新規アルゴリズムとシステム「TidalDecode」を提案する。