本論文では、GEMV高速化のためのPIMデータ配置の最適化について検討している。
まず、PIMアーキテクチャ、メモリ構成、GenAIニーズ、GEMVニーズなどの要因がデータ配置に与える影響を分析した。これらの要因のバランスを取るためのPIMnastアプローチを提案した。
PIMnastでは、行列のタイリングとタイルの並び順を最適化することで、PIMの特性を最大限に活かすデータ配置を実現する。具体的には、行列の行をバンク間に均等に分散し、同一行がバンク内に収まるようにする。また、DRAM行ロケーリティを高めるためにタイルの形状とタイルの並び順を分離した。
さらに、レジスタ割り当てや入力ベクトルの再利用などの最適化手法を組み合わせることで、PIMの加速効果をさらに高めている。
評価の結果、PIMnastはGEMVの高速化において最大6.86倍の加速を実現し、エンドツーエンドでは最大5倍の高速化が可能であることを示した。一部のモデルでは低い加速率となるが、ハードウェアやソフトウェアの最適化によりこの問題に対処できることも確認した。
翻譯成其他語言
從原文內容
arxiv.org
深入探究