Core Concepts
大規模言語モデル(LLM)のKVキャッシュ圧縮において、残差ベクトル量子化を用いることで、従来のスカラー量子化技術に匹敵する性能を維持しながら、より高い圧縮率を実現できる。
Abstract
大規模言語モデルのKVキャッシュ圧縮における残差ベクトル量子化
Kumar, A. (2024). Residual vector quantization for KV cache compression in large language model. arXiv preprint arXiv:2410.15704v1.
本研究は、大規模言語モデル(LLM)のKVキャッシュ圧縮において、残差ベクトル量子化を用いることで、従来のスカラー量子化技術を超える圧縮率を達成できるかを検証することを目的とする。