Core Concepts
データフロー認識に基づいて、2.5D/3Dインテグレーション技術を活用したマニーコアアーキテクチャを設計することで、深層学習ワークロードの高性能かつ省エネルギーな実行を実現する。
Abstract
本論文では、深層学習ワークロードの高性能かつ省エネルギーな実行を目的とした、データフロー対応PIM対応マニーコアアーキテクチャの設計原則について述べている。
2.5Dインターポーザと3Dインテグレーションは、深層学習ワークロードを高速化するマニーコアアーキテクチャの設計を可能にする。しかし、多数のプロセッシングエレメント(PE)を効率的に接続するオンチップ通信インフラストラクチャの設計が課題となる。
データフロー認識に基づいて、PEを空間充填曲線に沿って配置するFloretアーキテクチャを提案している。Floretは、通信距離を最小化し、リソース利用効率を高めることで、従来のメッシュやトーラスベースのオンチップネットワークに比べて、レイテンシ、エネルギー効率、および製造コストを大幅に改善できる。
さらに、3Dアーキテクチャでは熱的課題にも取り組む必要がある。ReRAMベースのPIMアクセラレータは温度変化に敏感であり、性能と精度のトレードオフが生じる。そのため、性能と温度の両方を考慮した最適化が重要である。
最後に、トランスフォーマーモデルなどの新しいMLワークロードでは、データフロー以外にも複雑な演算カーネルや記憶階層の課題があり、さらなる検討が必要であることを指摘している。
Stats
深層学習モデルのパラメータ数は以下の通りです:
ResNet18: 24.76M
ResNet34: 36.5M
ResNet50: 25.94M
ResNet101: 9.42M
ResNet110: 43.6M
ResNet152: 54.84M
VGG19: 93.4M
DenseNet169: 54.84M