本文介紹了一種名為 QuWeiT 的新型 Transformer 模型,旨在解決傳統 Transformer 模型在訓練和部署過程中面臨的計算和能耗挑戰。作者指出,Transformer 模型中多層感知器 (MLP) 層佔據了模型權重和計算操作的很大一部分。為了降低能耗,他們建議用基於查找表的無權重神經網路 (WNN) 層來取代這些 MLP 層。
Transformer 模型在各種自然語言處理和計算機視覺任務中取得了顯著的成功。然而,它們日益增長的模型規模導致了高昂的訓練和部署成本。訓練和部署這些模型所需的硬體難以跟上模型規模的增長速度。此外,大型 Transformer 模型的高計算和記憶體需求會導致每次推理的能耗都很高,這引發了人們對其永續性的擔憂。
無權重神經網路 (WNN) 是一種基於查找表 (LUT) 的神經網路,專為節能推理而設計。與傳統神經網路相比,WNN 的推理速度更快,因為它們的推理只涉及少數查找操作。最近,有人提出了一種通過擴展有限差分法直接學習 LUT 網路的方法。
本文提出的 QuWeiT 模型將 WNN 的優勢與 Transformer 模型的優勢結合起來。作者提出了一個無權重模組,該模組結合了 DWN 層,並對最後一層進行了修改,並引入了一個新的條件求和層,以便在大型深度神經網路 (DNN) 中實現無縫集成。通過用 DWN 層取代 MLP 層,QuWeiT 模型在不降低模型精度的同時顯著降低了計算量和能耗。
作者在視覺和語言任務上評估了 QuWeiT 模型的性能。結果表明,QuWeiT 模型在 CIFAR-10 和 CIFAR-100 影像分類任務以及 nanoGPT 語言建模任務上均取得了與基準 Transformer 模型相當的精度。此外,QuWeiT 模型在能耗方面表現出顯著的改進,在 I-ViT-T 模型上實現了 2.2 倍的能效提升。
QuWeiT 模型提供了一種節能且高效的 Transformer 模型推理解決方案。通過利用 WNN 的強大功能,QuWeiT 模型能夠在保持模型精度的同時顯著降低計算量和能耗。這項工作為開發用於邊緣設備和其他資源受限環境的輕量級和節能 Transformer 模型開闢了新的途徑。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies