Core Concepts
Reframeフレームワークを使用して、さまざまなハードウェアアーキテクチャ上でマシンラーニングベンチマークを実行し、性能を比較・分析する。
Abstract
本論文では、ReframeテストフレームワークをKubernetesバックエンドに拡張し、EPCCが管理するさまざまなシステム(ARCHER2、Cirrus、EIDF GPU Service、Graphcore Bow Pod64、Cerebras CS-2)上でマシンラーニングベンチマーク(ResNet-50、DeepCam、CosmoFlow)を実行し、その結果を報告している。
ReframeフレームワークにはもともとKubernetesサポートがなかったため、本研究ではKubernetesスケジューラバックエンドを実装した。これにより、Kubernetesで管理されるシステムでもReframeを使ってベンチマークを実行できるようになった。
ベンチマーク結果から、GPUシステムとCPUシステムの性能差、I/Oボトルネックの影響、ハードウェア世代間の性能差などが明らかになった。また、GraphcoreやCerebrasなどの新しいアクセラレータ上でのベンチマーキングにも取り組んだが、モデルの移植や最適化に課題があることが分かった。
本研究の成果は、HPC施設がマシンラーニングワークロードの性能を定期的にモニタリングし、システム変更の影響を把握するのに役立つ。また、Reframeの拡張により、Kubernetesクラスタ上でも同様のベンチマーキングが可能になった。
Stats
ARCHER2 CPUシステムでのResNet-50の計算スループットは40.1 inputs/秒
EIDF A100 GPUシステムでのResNet-50の計算スループットは179.7 inputs/秒
Graphcore IPUシステムでのResNet-50の計算スループットは255.6 inputs/秒
Cerebras CS-2システムでのResNet-50の計算スループットは452.0 inputs/秒