LLMの展開における課題として、KVキャッシュのメモリフットプリントの増加が挙げられます。既存の方法では、注意値に基づいてKVキャッシュを最適化することが困難であることが指摘されています。QAQは、異なる量子化戦略を使用してKVキャッシュを効果的に圧縮し、モデル性能にほとんど影響を与えません。この手法は、アウトライアーの重要性や例外処理などの洞察から生まれました。実験結果は、QAQが他のSOTA手法よりも優れたパフォーマンスを示すことを示しています。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Shichen Dong... في arxiv.org 03-08-2024
https://arxiv.org/pdf/2403.04643.pdfاستفسارات أعمق