核心概念
PIMの加速を最大限に引き出すためには、重要な要因のバランスを取ることが鍵となる。
要約
本論文では、GEMV高速化のためのPIMデータ配置の最適化について検討している。
まず、PIMアーキテクチャ、メモリ構成、GenAIニーズ、GEMVニーズなどの要因がデータ配置に与える影響を分析した。これらの要因のバランスを取るためのPIMnastアプローチを提案した。
PIMnastでは、行列のタイリングとタイルの並び順を最適化することで、PIMの特性を最大限に活かすデータ配置を実現する。具体的には、行列の行をバンク間に均等に分散し、同一行がバンク内に収まるようにする。また、DRAM行ロケーリティを高めるためにタイルの形状とタイルの並び順を分離した。
さらに、レジスタ割り当てや入力ベクトルの再利用などの最適化手法を組み合わせることで、PIMの加速効果をさらに高めている。
評価の結果、PIMnastはGEMVの高速化において最大6.86倍の加速を実現し、エンドツーエンドでは最大5倍の高速化が可能であることを示した。一部のモデルでは低い加速率となるが、ハードウェアやソフトウェアの最適化によりこの問題に対処できることも確認した。
統計
単一のGenAIモデルのトークン生成フェーズだけでも最大120GB/sのDRAMバンド幅を消費する可能性がある。
PIMによる理論的な最大加速は7倍である。
引用
「PIMの加速を最大限に引き出すためには、重要な要因のバランスを取ることが鍵となる。」
「PIMnastは、GEMVの高速化において最大6.86倍の加速を実現し、エンドツーエンドでは最大5倍の高速化が可能である。」