本論文では、ReframeテストフレームワークをKubernetesバックエンドに拡張し、EPCCが管理するさまざまなシステム(ARCHER2、Cirrus、EIDF GPU Service、Graphcore Bow Pod64、Cerebras CS-2)上でマシンラーニングベンチマーク(ResNet-50、DeepCam、CosmoFlow)を実行し、その結果を報告している。
ReframeフレームワークにはもともとKubernetesサポートがなかったため、本研究ではKubernetesスケジューラバックエンドを実装した。これにより、Kubernetesで管理されるシステムでもReframeを使ってベンチマークを実行できるようになった。
ベンチマーク結果から、GPUシステムとCPUシステムの性能差、I/Oボトルネックの影響、ハードウェア世代間の性能差などが明らかになった。また、GraphcoreやCerebrasなどの新しいアクセラレータ上でのベンチマーキングにも取り組んだが、モデルの移植や最適化に課題があることが分かった。
本研究の成果は、HPC施設がマシンラーニングワークロードの性能を定期的にモニタリングし、システム変更の影響を把握するのに役立つ。また、Reframeの拡張により、Kubernetesクラスタ上でも同様のベンチマーキングが可能になった。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문