核心概念
提案されたQAQは、KVキャッシュの品質適応型量子化スキームであり、モデル性能にほとんど影響を与えずにKVキャッシュサイズを10倍圧縮します。
摘要
LLMの展開における課題として、KVキャッシュのメモリフットプリントの増加が挙げられます。既存の方法では、注意値に基づいてKVキャッシュを最適化することが困難であることが指摘されています。QAQは、異なる量子化戦略を使用してKVキャッシュを効果的に圧縮し、モデル性能にほとんど影響を与えません。この手法は、アウトライアーの重要性や例外処理などの洞察から生まれました。実験結果は、QAQが他のSOTA手法よりも優れたパフォーマンスを示すことを示しています。
统计
QAQはKVキャッシュサイズの10倍の圧縮率を達成します。
アウトライアー処理により、モデルパフォーマンスが著しく向上します。
引用
"QAQ achieves nearly a 10× compression of the KV cache size with minimal impact on model performance."
"Handling exceptional cases results in an improvement of approximately 2% − 4% in performance."