Grunnleggende konsepter
Edge AIでは、モバイル、エッジ、クラウドの各層にわたってブラックボックスモデルを展開することで、遅延とプライバシーの課題に対処できる。しかし、どの組み合わせの展開オペレータとティアを使用すれば、特定の遅延と性能要件を満たせるかは未解決の問題である。
Sammendrag
本研究では、Edge AI環境における3つの一般的なブラックボックス展開オペレータ(分割、量子化、早期終了)とそれらの組み合わせの性能を実証的に評価しました。
- 分割オペレータは、モバイル、エッジ、クラウドの各ティアにわたってモデルを分割することで、遅延とプライバシーの課題に対処します。
- 量子化オペレータは、モデルの計算を32ビットから16ビットや8ビットに削減することで、計算コストと記憶容量を削減します。
- 早期終了オペレータは、モデルの完全な順方向パスを待つ必要なく、中間出力に基づいて早期に予測を行うことで、推論速度と効率を向上させます。
- 実験の結果、以下のような知見が得られました:
- エッジ上での量子化 + 早期終了オペレータの組み合わせは、中程度の精度低下で高速な遅延を実現できる可能性がある。
- 精度低下を最小限に抑えたい場合は、エッジ上での量子化オペレータが最適な選択肢となる。
- モバイルCPU/RAMリソースが制限される場合、モバイル-エッジ間の分割が有効な選択肢となる。
- 入力データサイズの小さいモデル(FCN)の場合、クラウド展開が他の戦略よりも有効な選択肢となる。
- 入力データサイズの大きいモデル(ResNet、ResNext、DUC)の場合、クラウド/モバイルよりもエッジティアが有効な選択肢となる。
Statistikk
モバイル、エッジ、クラウドの各ティアにおける推論遅延は、入力データサイズによって大きく変動する。
大規模な入力データを持つモデルでは、エッジティアがクラウドやモバイルよりも有効な選択肢となる。