Concetti Chiave
異種CPU/GPU間の最適なコード構造による性能向上を実証する。
Sintesi
この論文は、CPUとGPUアーキテクチャ向けのポータブルで高効率なコード構造を提供する課題に焦点を当てています。AlyaのCFDコードにおける右辺項のアセンブリに関する研究から始まり、異なる次元のランタイム最適化がGPUとCPU上で完全なパフォーマンスポテンシャルを明らかにすることが示されています。さらに、新しい最適化戦略の必要性が強調され、OpenACCベースの統一実装がNVIDIA A100 GPUで50倍以上、Intel IcelakeベースのCPUノードで5倍以上のパフォーマンス向上をもたらすことが示されています。
I. INTRODUCTION
- AlyaはUEABS(Unified European Applications Benchmark Suite)内のMultiphysics HPCコードであり、GPUへの初期ポートではCPUよりも4−5倍遅いことが明らかになった。
II. FINITE ELEMENT ASSEMBLY IN CFD
- 高次スキームへの依存度が高い近年の有限要素離散化手法や、Alyaで使用されるエネルギー保存型2次法について言及。
III. MEASUREMENTS AND MACHINES
- ボルント・ベンチマーク用LESフローを使用し、Fritz CPUクラスターとAlex GPUクラスターで計測。
IV. STATUS QUO: VECTORIZED DATA STRUCTURES
- ベクトル化されたデータ構造やアセンブリ関数に関する詳細な分析。
V. IMPROVEMENTS
- アルゴリズム再構築や特殊化、プライバタイズなど3つのカテゴリーに分類された改善策。
VI. ENERGY EFFICIENCY
- Alex GPUとFritz CPUノード間でエネルギー効率比較を行い、GPUシステムがCPUよりも4倍効率的であることを示す推定値を提供。
VII. CONCLUSIONS
- Alyaへの最適化戦略や将来的な研究方針について総括。
Statistiche
NVIDIA A100 GPU上で50倍以上のパフォーマンス向上を実現(約2.5 TF/s FP64)。
Intel IcelakeベースのCPUノード上で5倍以上のパフォーマンス向上(約1.0 TF/s FP64)。
Citazioni
"Efficient exascale discretizations: High-order finite element methods." - T. Kolev et al.
"Assembly of finite element methods on graphics processors." - C. Cecka et al.
"Roofline: An insightful visual performance model for multicore architectures." - S. Williams et al.