toplogo
登入

FLARE:基於無浮點數 PTQ 和低 ENOB ADC 的 AMS-PiM 架構,實現具備錯誤容忍、快速且高效的 Transformer 加速


核心概念
本文提出了一種名為 FLARE 的新型 AMS-PiM 架構,透過消除對高 ENOB ADC、除法運算和 FPU 的依賴,並引入無需反量化的 PTQ 和基於整數的非線性層處理,從而實現高效的 Transformer 推理。
摘要

FLARE 架構:針對 Transformer 推理的節能解決方案

這篇研究論文介紹了 FLARE,這是一種針對基於編碼器的 Transformer 模型設計的新型類比混合訊號處理記憶體 (AMS-PiM) 架構。

Transformer 模型的挑戰與 AMS-PiM 的前景

基於編碼器的 Transformer 模型,例如 BERT 和 ViT,在各種機器學習任務中發揮著至關重要的作用。然而,它們的自注意力層具有二次增長的計算和記憶體需求,這對硬體效率構成了重大挑戰。AMS-PiM 架構透過在記憶體內進行高效的晶片上處理,為應對這些挑戰提供了一個有希望的解決方案。

量化技術的比較:QAT 與 PTQ

傳統上,AMS-PiM 依賴於量化感知訓練 (QAT),這是一種硬體高效的技術,但需要大量的重新訓練才能使模型適應 AMS-PiM,這對於 Transformer 模型來說越來越不切實際。訓練後量化 (PTQ) 減輕了這種訓練開銷,但引入了顯著的硬體效率低下問題。PTQ 依賴於反量化-量化 (DQ-Q) 過程、浮點數單元 (FPU) 和高有效位數 (ENOB) 類比數位轉換器 (ADC)。特別是,高 ENOB ADC 的面積和能耗呈指數級增長 (2^ENOB),降低了感測餘量,並增加了對製程、電壓和溫度 (PVT) 變化,這進一步加劇了 PTQ 在 AMS-PiM 系統中的挑戰。

FLARE 的創新:無浮點數 PTQ 和低 ENOB ADC

為了克服這些限制,FLARE 架構採用了無需 DQ-Q 過程、無 FPU 和除法的非線性處理,以及基於低 ENOB ADC 的稀疏矩陣向量乘法技術。

FLARE 的優勢

透過這些技術,FLARE 在保持數值穩定性的同時,提高了錯誤容忍度、面積/能耗效率和計算速度。實驗結果表明,FLARE 在能耗效率、延遲和準確性方面優於最先進的 GPU 和傳統的 PiM 架構,使其成為高效部署 Transformer 的可擴展解決方案。

FLARE 的關鍵特性

  • 端到端晶片上處理自注意力層,減少了二次方級的晶片外張量流量。
  • 僅使用整數的、準確的、無需反量化的 PTQ 和非線性層處理,無需高 ENOB ADC、除法或 FPU 即可保持精度。
  • 利用 MRAM-SRAM 混合 AMS-PiM 陣列中的低 ENOB ADC,實現快速、準確且高效的稀疏 GEMV 運算,並具有 6σ 的置信度。

總結

FLARE 為 Transformer 推理提供了一種可擴展且節能的解決方案,解決了基於編碼器的模型在推理時間的獨特瓶頸。

edit_icon

客製化摘要

edit_icon

使用 AI 重寫

edit_icon

產生引用格式

translate_icon

翻譯原文

visual_icon

產生心智圖

visit_icon

前往原文

統計資料
高 ENOB ADC 的面積和功耗與 2^ENOB 成正比。 Transformer 模型的嵌入維度通常大於 1k。 Transformer 模型的激活和權重操作數的位精度通常大於 4 位元。 為了準確的 PTQ,ADC 需要具有至少 18 位元的 ENOB。 將輸入向量分割成較小的區塊(例如,將長度為 D 的向量分割成 D/N 個區塊,需要 N 個週期)可以提高計算可靠性,但會增加處理週期。 在一個具有 1024 個隱藏狀態、每個批次 512 個標記、使用 8 位元整數表示的 Transformer 模型中,僅處理線性投影就可能需要大約 100 毫秒的時間。 位元級稀疏性可以顯著加速 GEMV 和 GEMM 操作。
引述
"PTQ’s reliance on accurate scaling factors during the DQ-Q process necessitates FPUs to handle division operations and avoid cumulative rounding errors, adding to system complexity." "Our investigation visualized in Fig. 7-(e), (f) shows that when split into bitwise elements (Fig. 7-(a)), the activation matrices exhibit much higher sparsity than when measured in coarser value grains (Fig. 7-(b) ∼(d))."

深入探究

FLARE 架構如何與其他新興的記憶體技術(如電阻式 RAM 或相變記憶體)整合?

FLARE 架構的核心概念是利用混合記憶體系統來提高效率,並結合針對類比混合訊號運算的量化和非線性層最佳化。因此,FLARE 可以與其他新興記憶體技術整合,只要這些技術能夠滿足以下條件: 高密度和非揮發性: 如同 MRAM 在 FLARE 中的角色,新興記憶體應提供高密度以儲存大型 Transformer 模型的權重,並且理想情況下具有非揮發性,以實現節能。電阻式 RAM (ReRAM) 和相變記憶體 (PCM) 都符合這些特性,使其成為潛在的候選者。 與類比混合訊號運算的相容性: FLARE 依靠類比混合訊號處理來加速矩陣向量乘法。新興記憶體需要與這種運算方式相容,或者需要開發新的技術來克服潛在的挑戰。例如,ReRAM 和 PCM 的類比特性使其適合進行矩陣向量乘法的類比計算。 足夠的耐用性和讀寫速度: 雖然 FLARE 的設計著重於減少資料移動,但新興記憶體仍需具備足夠的耐用性和讀寫速度,以支援訓練和推論工作負載。 ReRAM 和 PCM 的耐用性仍然是一個挑戰,需要進一步的研究和開發才能滿足 FLARE 的需求。 總之,FLARE 的整合需要仔細評估新興記憶體的特性,並可能需要對 FLARE 架構進行調整以發揮這些技術的優勢。

如果 Transformer 模型的規模持續按照目前的趨勢增長,FLARE 架構是否仍然可以有效地處理?

Transformer 模型規模的持續增長對 FLARE 架構的效率提出了挑戰,但也帶來了一些潛在的應對方案: 挑戰: 記憶體容量需求: FLARE 使用 MRAM 儲存模型權重,但 MRAM 的容量增長速度可能趕不上 Transformer 模型規模的擴張。 計算複雜度: 更大的模型意味著需要處理的矩陣規模更大,這可能導致計算時間和功耗增加。 稀疏性: 雖然 FLARE 利用了模型中的稀疏性,但隨著模型規模的增長,稀疏性模式可能會變得更加複雜,這可能需要更複雜的硬體和軟體來有效地處理。 應對方案: 進階記憶體技術: 探索更高密度、更快速度和更低功耗的新興記憶體技術,例如 3D ReRAM 或鐵電 RAM (FeRAM)。 混合精度計算: 在 FLARE 中使用混合精度計算,例如將部分計算轉移到精度較低的數位電路,以減少計算量和功耗。 動態稀疏性: 開發能夠動態識別和利用模型中稀疏性的技術,例如剪枝或量化感知訓練,以減少計算量和記憶體需求。 分層記憶體系統: 採用分層記憶體系統,例如將經常訪問的權重儲存在片上 SRAM 中,而將不常訪問的權重儲存在片外 DRAM 中,以平衡效能和成本。 總之,FLARE 架構需要不斷發展以應對 Transformer 模型規模增長的挑戰。通過結合新的硬體技術、演算法最佳化和系統級設計,FLARE 有望繼續為大型 Transformer 模型提供高效的推論能力。

FLARE 架構的設計理念能否應用於其他類型的深度學習模型,例如卷積神經網路或循環神經網路?

FLARE 架構的設計理念著重於解決 Transformer 模型中存在的特定挑戰,例如大量的矩陣向量乘法運算和模型規模龐大。雖然這些理念可以應用於其他類型的深度學習模型,例如卷積神經網路 (CNN) 或循環神經網路 (RNN),但需要根據具體模型的特性進行調整和最佳化。 CNN: 卷積運算: FLARE 中的類比混合訊號處理單元可以適應卷積運算,但需要修改資料流和控制邏輯以適應卷積核的特性。 局部性: CNN 中的卷積運算具有局部性,可以利用資料重用來減少記憶體訪問。 FLARE 可以通過最佳化資料排程和緩衝來進一步提高 CNN 的效率。 RNN: 遞迴計算: RNN 中的遞迴計算需要高效地處理時間序列資料。 FLARE 可以通過設計專用的處理單元或修改資料流來支援遞迴計算。 記憶體需求: RNN 通常需要儲存隱藏狀態,這可能導致記憶體需求增加。 FLARE 可以通過使用壓縮技術或分層記憶體系統來解決這個問題。 總之,FLARE 架構的設計理念可以應用於其他類型的深度學習模型,但需要根據具體模型的特性進行調整和最佳化。通過利用模型中的特定結構和運算模式,FLARE 有望為更廣泛的深度學習應用提供高效的硬體加速方案。
0
star