本論文では、軽量CNNを効率的に高速化するための新しいストリーミングアーキテクチャを提案する。
まず、オフチップメモリアクセスを最小限に抑えつつオンチップバッファサイズを低く抑えるために、ハイブリッドのコンピューティングエンジン(CE)を設計した。
浅層のレイヤーではFM再利用CE(FRCE)を使い、深層のレイヤーではウェイト再利用CE(WRCE)を使うことで、オンチップメモリ使用量とオフチップメモリアクセスを最適化している。
次に、計算効率を向上させるために、細粒度の並列メカニズムとデータフロー指向のラインバッファスキームからなるバランスのとれたデータフロー戦略を提案した。
さらに、性能モデルに基づいて、リソース配分の最適化手法を提案し、限られたコンピューティングおよびメモリリソースを最大限に活用している。
提案手法をMobileNetV2とShuffleNetV2に適用し、2092.4 FPSの高性能と94.58%のMAC効率を達成し、従来手法を大きく上回る結果を示した。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Zhiyuan Zhao... a las arxiv.org 10-01-2024
https://arxiv.org/pdf/2407.19449.pdfConsultas más profundas