大型語言模型雖然功能強大,但其 Transformer 架構在處理長文本時效率低下,鍵值快取的引入雖然解決了效率問題,但卻帶來了記憶體開銷。本文綜述了各種優化大型語言模型鍵值快取記憶體使用的方法,涵蓋預訓練、部署和推理階段,並總結了這些方法的共性和差異,為構建更有效、高效和可持續的大型語言模型提供了見解。
BUZZ 是一種新穎的鍵值快取演算法,它利用結構化的上下文資訊來最小化快取記憶體使用量,同時提高大型語言模型的推論速度。
本文提出了一種名為「注意力門控」(AG)的參數化鍵值快取逐出機制,旨在通過上下文語境分析,動態地決定哪些詞彙的鍵值對應當被保留或捨棄,從而提高大型語言模型在長文本處理時的推理效率和記憶體使用效率。