本論文では、軽量CNNを効率的に高速化するための新しいストリーミングアーキテクチャを提案する。
まず、オフチップメモリアクセスを最小限に抑えつつオンチップバッファサイズを低く抑えるために、ハイブリッドのコンピューティングエンジン(CE)を設計した。
浅層のレイヤーではFM再利用CE(FRCE)を使い、深層のレイヤーではウェイト再利用CE(WRCE)を使うことで、オンチップメモリ使用量とオフチップメモリアクセスを最適化している。
次に、計算効率を向上させるために、細粒度の並列メカニズムとデータフロー指向のラインバッファスキームからなるバランスのとれたデータフロー戦略を提案した。
さらに、性能モデルに基づいて、リソース配分の最適化手法を提案し、限られたコンピューティングおよびメモリリソースを最大限に活用している。
提案手法をMobileNetV2とShuffleNetV2に適用し、2092.4 FPSの高性能と94.58%のMAC効率を達成し、従来手法を大きく上回る結果を示した。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Zhiyuan Zhao... às arxiv.org 10-01-2024
https://arxiv.org/pdf/2407.19449.pdfPerguntas Mais Profundas