提案されたQAQは、KVキャッシュの品質適応型量子化スキームであり、モデル性能にほとんど影響を与えずにKVキャッシュサイズを10倍圧縮します。
The author proposes QAQ, a Quality Adaptive Quantization scheme for the KV cache, demonstrating up to 10× compression ratio with minimal impact on model performance.