核心概念
Intel Max GPUは、小規模から中規模のCGYRO核融合シミュレーションではNVIDIA A100やAMD MI250X GPUとほぼ同等の性能を発揮するものの、大規模シミュレーションでは特にFFT変換において顕著な速度低下が見られる。
本稿は、CGYRO核融合シミュレーションにおけるIntel Max GPUの性能評価に関する研究論文の概要です。
研究目的
本研究は、Intel Max GPUがCGYRO核融合シミュレーションの実行に適した計算リソースであるかどうかを評価することを目的としています。
方法
Intel Max GPUを搭載したTACCのStampede3システム、AMD MI250X GPUを搭載したORNLのFrontierシステム、NVIDIA A100 GPUを搭載したNERSCのPerlmutterシステムを用いてベンチマークを実施。
小規模から大規模まで、様々なサイズのシミュレーション入力を使用し、Intel Max GPUと他のGPU、CPUの性能を比較。
ベンチマークでは、CGYROシミュレーションの主要な処理時間であるFFT変換、メモリ負荷の高いコードセクション、通信コストなどを測定。
主な結果
Intel Max GPUは、小規模から中規模のシミュレーションではNVIDIA A100やAMD MI250X GPUとほぼ同等の性能を示した。
しかし、大規模なシミュレーションでは、Intel Max GPUは他のGPUと比較して顕著に遅くなり、特にFFT変換においてその傾向が見られた。
メモリ負荷の高いコードセクションにおいても、Intel Max GPUは他のGPUと比較して大幅に遅いことが判明した。
Intel Max GPUは、Intel Max CPUと比較して大幅に高速であった。
結論
Intel Max GPUは、CGYRO核融合シミュレーションの実行に利用可能な計算リソースである。
小規模から中規模のシミュレーションでは十分な性能を発揮する。
しかし、大規模なシミュレーションでは、FFT変換やメモリ帯域幅の制限により、性能が低下する可能性がある。
意義
本研究は、Intel Max GPUの核融合シミュレーションにおける性能を明らかにし、今後のGPUアーキテクチャの開発に重要な知見を提供するものである。
制限と今後の研究
本研究では、Stampede3システムのIntel Max GPUノードの使用制限により、大規模シミュレーションの評価が制限された。
今後の研究では、より大規模なシミュレーションを用いて、Intel Max GPUの性能を評価する必要がある。
また、Intel Max GPUのメモリサブシステムの効率的な活用方法を検討する必要がある。
統計
Intel Max GPUは、小規模から中規模のFFTサイズでは他のGPUと同等の性能を示すが、大規模なFFTサイズでは大幅に遅くなる。
Intel Max GPUは、テストされたすべての入力において、Intel Max CPUよりも常に1桁高速である。
Intel Max GPUは、すべての入力において、他のベンダーのGPUと比較して、メモリ負荷の高いコードセクションで大幅に遅い。
Intel Max GPUの通信時間は、他のGPUの約2倍である。