Core Concepts
本研究では、ハードウェアリソースの使用を最小限に抑えつつ高精度を維持するための新しい量子化手法であるHGQを提案する。HGQは、重みと活性化の精度を個別に最適化することで、従来の層単位の量子化手法よりも優れた精度とリソース効率のトレードオフを実現する。
Abstract
本論文では、ニューラルネットワークの推論時の低遅延と低消費電力を実現するための新しい量子化手法であるHGQを提案している。従来の層単位の量子化手法とは異なり、HGQでは重みと活性化の精度を個別に最適化することができる。これにより、より良いリソース効率とモデル精度のトレードオフを実現できる。
具体的には以下のような特徴がある:
重みと活性化の精度を個別に最適化することで、より細粒度な量子化が可能
勾配降下法を用いて、精度とリソース消費のトレードオフを自動的に最適化
量子化に伴う精度劣化を最小限に抑えつつ、リソース消費を最大20倍削減、遅延を5倍改善
TensorflowとKerasベースのライブラリとして実装され、hls4mlとの連携により、ソフトウェアとFPGA上のファームウェアの完全な一致を保証
これらの特徴により、HGQはFPGA上での超低遅延ニューラルネットワーク推論に適している。
Stats
提案手法HGQを用いることで、リソース消費を最大20倍削減、遅延を5倍改善できる
HGQモデルのLUT+55×DSP使用率は、従来手法と比べて50%から95%削減できる