核心概念
本文提出了一種名為 FLARE 的新型 AMS-PiM 架構,透過消除對高 ENOB ADC、除法運算和 FPU 的依賴,並引入無需反量化的 PTQ 和基於整數的非線性層處理,從而實現高效的 Transformer 推理。
摘要
FLARE 架構:針對 Transformer 推理的節能解決方案
這篇研究論文介紹了 FLARE,這是一種針對基於編碼器的 Transformer 模型設計的新型類比混合訊號處理記憶體 (AMS-PiM) 架構。
Transformer 模型的挑戰與 AMS-PiM 的前景
基於編碼器的 Transformer 模型,例如 BERT 和 ViT,在各種機器學習任務中發揮著至關重要的作用。然而,它們的自注意力層具有二次增長的計算和記憶體需求,這對硬體效率構成了重大挑戰。AMS-PiM 架構透過在記憶體內進行高效的晶片上處理,為應對這些挑戰提供了一個有希望的解決方案。
量化技術的比較:QAT 與 PTQ
傳統上,AMS-PiM 依賴於量化感知訓練 (QAT),這是一種硬體高效的技術,但需要大量的重新訓練才能使模型適應 AMS-PiM,這對於 Transformer 模型來說越來越不切實際。訓練後量化 (PTQ) 減輕了這種訓練開銷,但引入了顯著的硬體效率低下問題。PTQ 依賴於反量化-量化 (DQ-Q) 過程、浮點數單元 (FPU) 和高有效位數 (ENOB) 類比數位轉換器 (ADC)。特別是,高 ENOB ADC 的面積和能耗呈指數級增長 (2^ENOB),降低了感測餘量,並增加了對製程、電壓和溫度 (PVT) 變化,這進一步加劇了 PTQ 在 AMS-PiM 系統中的挑戰。
FLARE 的創新:無浮點數 PTQ 和低 ENOB ADC
為了克服這些限制,FLARE 架構採用了無需 DQ-Q 過程、無 FPU 和除法的非線性處理,以及基於低 ENOB ADC 的稀疏矩陣向量乘法技術。
FLARE 的優勢
透過這些技術,FLARE 在保持數值穩定性的同時,提高了錯誤容忍度、面積/能耗效率和計算速度。實驗結果表明,FLARE 在能耗效率、延遲和準確性方面優於最先進的 GPU 和傳統的 PiM 架構,使其成為高效部署 Transformer 的可擴展解決方案。
FLARE 的關鍵特性
- 端到端晶片上處理自注意力層,減少了二次方級的晶片外張量流量。
- 僅使用整數的、準確的、無需反量化的 PTQ 和非線性層處理,無需高 ENOB ADC、除法或 FPU 即可保持精度。
- 利用 MRAM-SRAM 混合 AMS-PiM 陣列中的低 ENOB ADC,實現快速、準確且高效的稀疏 GEMV 運算,並具有 6σ 的置信度。
總結
FLARE 為 Transformer 推理提供了一種可擴展且節能的解決方案,解決了基於編碼器的模型在推理時間的獨特瓶頸。
統計資料
高 ENOB ADC 的面積和功耗與 2^ENOB 成正比。
Transformer 模型的嵌入維度通常大於 1k。
Transformer 模型的激活和權重操作數的位精度通常大於 4 位元。
為了準確的 PTQ,ADC 需要具有至少 18 位元的 ENOB。
將輸入向量分割成較小的區塊(例如,將長度為 D 的向量分割成 D/N 個區塊,需要 N 個週期)可以提高計算可靠性,但會增加處理週期。
在一個具有 1024 個隱藏狀態、每個批次 512 個標記、使用 8 位元整數表示的 Transformer 模型中,僅處理線性投影就可能需要大約 100 毫秒的時間。
位元級稀疏性可以顯著加速 GEMV 和 GEMM 操作。
引述
"PTQ’s reliance on accurate scaling factors during the DQ-Q process necessitates FPUs to handle division operations and avoid cumulative rounding errors, adding to system complexity."
"Our investigation visualized in Fig. 7-(e), (f) shows that when split into bitwise elements (Fig. 7-(a)), the activation matrices exhibit much higher sparsity than when measured in coarser value grains (Fig. 7-(b) ∼(d))."