核心概念
本文提出了一種名為 COMET 的高效能大型語言模型服務框架,透過細粒度的混合精度量化演算法 (FMPQ) 和優化的 W4Ax 核心,在不損失模型準確性的情況下,最大限度地利用現代 GPU 的低精度運算能力,從而降低大型語言模型的服務成本並提升推論效能。
摘要
COMET:邁向實用的 W4A4KV4 大型語言模型服務
本研究論文介紹了 COMET,一個用於高效能大型語言模型 (LLM) 推論的混合精度服務框架。為了應對在終端設備和雲端資料中心服務大型語言模型所帶來的龐大成本,模型量化技術被廣泛應用於壓縮模型大小。然而,現有的量化方法,例如 8 位元權重-激活量化或 4 位元僅權重量化,由於對低精度(例如 4 位元)激活的支援不足,效能提升有限。
為了解決這個問題,本研究首次實現了適用於大型語言模型的 W4A4KV4 服務,充分利用現代 GPU 上的 INT4 張量核心,並減少了由 KV 快取引起的記憶體瓶頸。具體來說,本研究提出了一種新穎的細粒度混合精度量化演算法 (FMPQ),可以在幾乎不損失準確性的情況下將大多數激活壓縮到 4 位元。為了支援 W4A4 和 W4A8 的混合精度矩陣乘法,本研究開發了一個高度優化的 W4Ax 核心。
COMET 引入了一種新穎的混合精度資料佈局,以便於訪問和快速解量化激活和權重張量,並利用 GPU 的軟體流水線來隱藏資料載入和轉換的開銷。此外,本研究還提出了一種細粒度的串流多處理器 (SM) 排程策略,以實現不同 SM 之間的負載平衡。透過整合優化的 W4Ax 核心和高效的記憶體管理技術,COMET 以高效能的混合精度編碼,為大型語言模型提供了實用且高效的服務。
本研究旨在解決現有大型語言模型量化方法在處理低精度激活和 KV 快取方面的不足,開發一種高效能的混合精度服務框架,以降低服務成本並提升推論效能。