核心概念
CNNモデルの協調推論を効率化するために、相互作用演算子分割(IOP)を提案する。IOPは、隣接する演算子を入力チャネル次元と出力チャネル次元で交互に分割することで、活性化の結合を不要にし、通信オーバーヘッドを削減する。
摘要
本論文では、CNNモデルの協調推論を効率化するための新しい手法であるInterleaved Operator Partitioning(IOP)を提案している。従来の協調推論手法では、演算子の出力チャネル次元や特徴マップの高さ・幅を partition 次元として使用していた。この場合、演算子の活性化が分散されるため、次の演算子に入力する前に concatenate する必要があり、協調推論の遅延が生じていた。
IOPでは、ある演算子を入力チャネル次元で分割し、その次の演算子を出力チャネル次元で分割することで、活性化の結合が不要となり、通信接続数が減少する。これにより、協調推論の遅延が低減される。
さらに、IOPに基づいたモデルセグメンテーショングアルゴリズムを提案し、協調推論時間を最小化する。実験結果から、IOPは従来手法と比べて6.39%~16.83%の推論時間の高速化と21.22%~49.98%のピークメモリ使用量の削減を実現できることが示された。
统计
IOPは従来のOC分割手法と比べて、LeNetで31.53%、AlexNetで21.06%、VGG11で12.82%の推論時間を短縮できる。
IOPはCoEdgeと比べて、LeNetで12.05%、AlexNetで16.83%、VGG11で6.39%の推論時間を短縮できる。
IOPはCoEdgeと比べて、LeNetで49.98%、AlexNetで21.22%、VGG11で40.79%のピークメモリ使用量を削減できる。
引用
"Cooperative computing for distributed inference, i.e., cooperative inference, is an effective solution."
"By partitioning an operator based on the input channel dimension and its successive operator based on the output channel dimension, activation concatenation becomes unnecessary, thereby reducing the number of communication connections, which consequently reduces cooperative inference delay."
"Experimental results demonstrate that compared with the state-of-the-art partition approaches used in CoEdge, the IOP strategy achieves 6.39% ~ 16.83% faster acceleration and reduces peak memory footprint by 21.22% ~ 49.98% for three classical image classification models."