Concetti Chiave
IoTプロセッサー向けに最適化されたgemmアルゴリズムを開発するための性能シミュレーターを活用することが重要です。
Sintesi
IoT向けgemmアルゴリズムの開発に関する性能分析が行われています。
異なるアルゴリズム変種の評価と比較が行われ、実際の実装とテストに先立って検討されています。
GAP8プロセッサー向けにキャリブレーションされた性能シミュレーターを使用して、gemmアルゴリズムの実行時間を推定しています。
レイヤーごとに異なるgemm形状で実行時間に高い変動性があることが示されています。
B3A2C0バリアントが一般的に有利であることが示唆されています。
Statistiche
キャリブレーション実験で得られた転送速度は、B3A2C0アルゴリズムでは1.62 MBytes/sです。
マイクロカーネル内部からのデータストリーム処理は、INT8 GOPSで5.64億回/秒です。