核心概念
TensorCore性能を大幅に向上させるためのEN-TensorCoreアーキテクチャを提案する。既存のTensorCoreアーキテクチャに容易に統合でき、チップ面積とエネルギー効率を大幅に改善できる。
要約
本論文では、TensorCoreの性能向上のための新しいEN-TensorCoreアーキテクチャを提案している。
まず、既存のTensorCoreアーキテクチャでは、同じ乗数が複数の被乗数に対して繰り返し使われる計算の再利用が十分に活用されていないことに着目した。そこで、乗数エンコーダを外部に配置し、エンコーダ出力を各PEに供給するEN-TensorCoreアーキテクチャを提案した。
具体的には、従来のModified Booth Encoding (MBE)では被乗数を3ビットエンコーディングしていたが、提案手法では被乗数を2ビットエンコーディングすることで、エンコーダ回路の面積とデータ転送経路の幅を削減できる。
提案手法をさまざまなTensorCoreアーキテクチャ(2D Matrix、1D/2D Array、Systolic Array、3D Cube)に適用して評価した結果、256 GOPS、1 TOPS、4 TOPSのスケールにおいて、平均で面積効率が8.7%、12.2%、11.0%向上し、エネルギー効率が13.0%、17.5%、15.5%向上することを示した。
統計
256 GOPSスケールのTensorCoreユニットでは、面積効率が8.7%向上
1 TOPSスケールのTensorCoreユニットでは、面積効率が12.2%向上
4 TOPSスケールのTensorCoreユニットでは、面積効率が11.0%向上
256 GOPSスケールのTensorCoreユニットでは、エネルギー効率が13.0%向上
1 TOPSスケールのTensorCoreユニットでは、エネルギー効率が17.5%向上
4 TOPSスケールのTensorCoreユニットでは、エネルギー効率が15.5%向上
引用
"TensorCore性能を大幅に向上させるためのEN-TensorCoreアーキテクチャを提案する。既存のTensorCoreアーキテクチャに容易に統合でき、チップ面積とエネルギー効率を大幅に改善できる。"
"提案手法をさまざまなTensorCoreアーキテクチャに適用して評価した結果、256 GOPS、1 TOPS、4 TOPSのスケールにおいて、平均で面積効率が8.7%、12.2%、11.0%向上し、エネルギー効率が13.0%、17.5%、15.5%向上することを示した。"