大規模言語モデル(LLM)の推論を高速化するために、テンソル並列化におけるアクセラレータ間の通信を圧縮する手法が提案されており、これにより、モデルの性能低下を最小限に抑えつつ、大幅な遅延削減が可能になる。
大規模言語モデル(LLM)の推論において、CPUメモリを効果的に活用することで、GPUメモリ使用量を削減し、スループットとレイテンシを大幅に向上させることができる。
AcceLLMは、冗長なKVキャッシュコピーを利用することで、LLM推論の負荷分散とデータ局所性を向上させ、レイテンシを最小限に抑え、ハードウェアリソースの効率的な割り当てを実現する新しい手法である。
GPUメモリ不足が深刻化するLLMオンライン推論において、CPUに処理の一部をオフロードすることでスループットを大幅に向上させる新しいシステム「NEO」が提案されている。
POD-Attentionは、LLM推論におけるプリフィルとデコードの処理を効率的に融合させることで、GPUの計算能力とメモリ帯域幅の両方を最大限に活用し、高速化を実現する新しいGPUカーネルである。
大規模言語モデル(LLM)の推論高速化において、活性化関数を含む量子化手法であるFMPQと、それを活用した推論フレームワークCOMETにより、高精度を維持しながら従来手法を超える高速化を実現できる。