LLMの展開における課題として、KVキャッシュのメモリフットプリントの増加が挙げられます。既存の方法では、注意値に基づいてKVキャッシュを最適化することが困難であることが指摘されています。QAQは、異なる量子化戦略を使用してKVキャッシュを効果的に圧縮し、モデル性能にほとんど影響を与えません。この手法は、アウトライアーの重要性や例外処理などの洞察から生まれました。実験結果は、QAQが他のSOTA手法よりも優れたパフォーマンスを示すことを示しています。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Shichen Dong... a las arxiv.org 03-08-2024
https://arxiv.org/pdf/2403.04643.pdfConsultas más profundas