The author proposes QAQ, a Quality Adaptive Quantization scheme for the KV cache, demonstrating up to 10× compression ratio with minimal impact on model performance.
提案されたQAQは、KVキャッシュの品質適応型量子化スキームであり、モデル性能にほとんど影響を与えずにKVキャッシュサイズを10倍圧縮します。