本論文では、MACO と呼ばれる新しい柔軟性と拡張性を備えたマルチコアプロセッサアーキテクチャを提案する。
MACO の主な特徴は以下の通り:
最大16個の汎用プロセッサコアと対応するマトリクス乗算アクセラレータ(MMAE)から構成される。MMAEはシステミックアレイを用いて高効率なGEMM演算を実現する。
拡張命令セットアーキテクチャ(MPAIS)を提案し、ユーザーにデータ移動、GEMM演算、タスク管理などの機能を提供することで、プログラミング性と柔軟性を向上させる。
ページテーブルアドレス予測に基づく潜在的なアドレス変換機構を開発し、大規模GEMM ワークロードにおけるメモリアクセスオーバーヘッドを削減する。
CPUコアとMMAEの並列処理を活用した効率的なGEMM+ワークロードのマッピング手法を提案する。
実験結果は、MACOが最大1.1 TFLOPSの性能と88%の計算効率を達成できることを示している。これは、深層学習ワークロードに対するMACOの適応性を示唆している。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Bingcai Sui,... at arxiv.org 05-01-2024
https://arxiv.org/pdf/2404.19180.pdfDeeper Inquiries