핵심 개념
提出了一種基於查找表的可編程和可擴展的神經網路加速器框架(LUT-NA),通過預先計算的更快查找來降低傳統數字加速器的功耗和面積開銷,同時避免模擬電路的噪聲和失配問題。
초록
本文提出了一種基於查找表的神經網路加速器框架(LUT-NA),通過分治方法解決了傳統查找表計算的可擴展性問題。LUT-NA通過預先計算的更快查找來降低傳統數字加速器的功耗和面積開銷,同時避免模擬電路的噪聲和失配問題。
具體來說:
- 提出了一種分治方法,將高精度的乘法和累加(MAC)操作分解成較低精度的MAC,以提高LUT的可擴展性。
- 分析了不同LTP(Lottery Ticket Pruning)模型(VGG11、VGG19、Resnet18、Resnet34、GoogleNet)的激活和權重位寬要求,發現8位就可以達到基線精度。
- 提出了一種基於近似計算的優化和簡化的LUT-NA架構(A-LUT-NA),在保持約1%精度損失的情況下,可以實現32.22倍-50.95倍的面積減少和3.68倍-6.25倍的能耗減少,相比傳統LUT技術。
- 進一步提出了一種混合精度的LUT-NA方法,在某些層使用全精度LUT-NA,在其他層使用近似A-LUT-NA,可以實現1.35倍-2.14倍的面積減少和1.99倍-3.38倍的能耗減少,相比傳統數字MAC技術,同時只有約1%的精度損失。
總的來說,LUT-NA框架通過預先計算的查找表實現了更高的能效和可擴展性,同時結合近似計算和混合精度分析進一步優化了性能。這為部署在資源受限設備上的神經網路推理提供了一種高效的解決方案。
통계
LUT-NA框架可以實現29.54倍的面積減少和3.34倍的每次推理能耗減少,相比傳統LUT技術。
LUT-NA框架可以實現1.23倍的面積減少和1.80倍的每次推理能耗減少,相比傳統數字MAC技術。
混合精度LUT-NA框架可以實現32.22倍-50.95倍的面積減少和3.68倍-6.25倍的每次推理能耗減少,相比傳統LUT技術。
混合精度LUT-NA框架可以實現1.35倍-2.14倍的面積減少和1.99倍-3.38倍的每次推理能耗減少,相比傳統數字MAC技術。