Core Concepts
ニューラルネットワークアクセラレータの性能と効率を最大化するには、重みと活性化の混合精度量子化とマッピングの最適化が重要である。
Abstract
本研究では、ニューラルネットワークアクセラレータの性能と効率を最大化するために、重みと活性化の混合精度量子化とマッピングの最適化を行っている。
まず、一般的な状態の最先端マッピングツールであるTimeloopを拡張し、混合精度量子化をサポートするようにした。これにより、従来のアプローチでは到達できなかった最適化戦略を活用できるようになった。
次に、ニューラルネットワークの誤差とハードウェアパラメータ(エネルギー、メモリ使用量など)のトレードオフを最適化するために、NSGA-IIを用いた多目的最適化アルゴリズムを提案した。Timeloopと連携させることで、多くの候補ソリューションを迅速に生成・評価できる。
実験では、MobileNetV1、MobileNetV2、Eyeriss、Simbaの組み合わせで評価を行った。提案手法により、分類精度を維持したまま、エネルギー消費を最大37%削減できることを示した。
Stats
第2畳み込み層の最小EDP(Eyerissの場合)
16bit: 638 J・Cycles
8bit: 388 J・Cycles
4bit: 281 J・Cycles
2bit: 228 J・Cycles
MobileNetV1の総メモリエネルギー削減率
一様量子化: 34.9%
提案手法: 45.2%
Quotes
"CNNsの重みと活性化を量子化し、適切なマッピングを行うことで、精度、エネルギー、メモリ要件のトレードオフを大幅に改善できる。"
"混合精度量子化を可能にすることで、ハードウェアリソースをより効果的に活用できる新しいマッピングが見つかる。"