Główne pojęcia
本文提出了一種新的分析框架 QERA,用於解決模型量化過程中低秩誤差重建的最佳化問題,並證明了最小化層輸出誤差比最小化權重近似誤差更有效。
標題:QERA:一種用於量化誤差重建的分析框架
作者:Cheng Zhang, Jeffrey T. H. Wong, Can Xiao, George A. Constantinides, Yiren Zhao
機構:英國倫敦帝國理工學院電氣與電子工程系
本研究旨在解決大型語言模型 (LLM) 量化過程中,如何有效地重建量化誤差以維持模型效能的問題。