本論文では、ReframeテストフレームワークをKubernetesバックエンドに拡張し、EPCCが管理するさまざまなシステム(ARCHER2、Cirrus、EIDF GPU Service、Graphcore Bow Pod64、Cerebras CS-2)上でマシンラーニングベンチマーク(ResNet-50、DeepCam、CosmoFlow)を実行し、その結果を報告している。
ReframeフレームワークにはもともとKubernetesサポートがなかったため、本研究ではKubernetesスケジューラバックエンドを実装した。これにより、Kubernetesで管理されるシステムでもReframeを使ってベンチマークを実行できるようになった。
ベンチマーク結果から、GPUシステムとCPUシステムの性能差、I/Oボトルネックの影響、ハードウェア世代間の性能差などが明らかになった。また、GraphcoreやCerebrasなどの新しいアクセラレータ上でのベンチマーキングにも取り組んだが、モデルの移植や最適化に課題があることが分かった。
本研究の成果は、HPC施設がマシンラーニングワークロードの性能を定期的にモニタリングし、システム変更の影響を把握するのに役立つ。また、Reframeの拡張により、Kubernetesクラスタ上でも同様のベンチマーキングが可能になった。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Christopher ... às arxiv.org 04-17-2024
https://arxiv.org/pdf/2404.10536.pdfPerguntas Mais Profundas