Główne pojęcia
本稿では、米国国立研究プラットフォーム(NRP)において、NVIDIAの最新AIチップであるGrace Hopper(GH200)の性能を、画像分類、物体検出、セマンティックセグメンテーションといったコンピュータビジョンタスクを用いて、従来のA100 GPUと比較評価しています。
本稿は、米国国立科学財団(NSF)が資金提供する国立研究プラットフォーム(NRP)において、NVIDIAの最新AIチップであるGrace Hopper(GH200)の性能を評価した研究論文である。
研究の背景
グレートプレーンズ地域は人口がまばらで、サイバーインフラストラクチャの専門家が不足しているため、地域全体で協力し、知識を共有するコミュニティとして活動している。
グレートプレーンズネットワーク(GPN)は、この課題を克服するために設立され、高スループットコンピューティング(HTC)のための複数州に分散した計算ノードの展開において豊富な経験を積んできた。
GP-ENGINEプロジェクトの一環として、NRPにGH200を搭載した最初のサーバーを構築した。
研究の目的
本研究の目的は、GH200の性能を、画像分類、物体検出、セマンティックセグメンテーションといったコンピュータビジョンタスクを用いて、従来のA100 GPUと比較評価することである。
実験方法
3つのコンピュータビジョンタスク(画像分類、物体検出、セマンティックセグメンテーション)を用いて、GH200の性能を評価した。
各タスクにおいて、畳み込みニューラルネットワーク(CNN)とTransformerベースの深層学習モデルを用いた。
GH200の性能を、1基のNVIDIA A100(1xA100)と、分散データ並列処理を利用した4基のNVIDIA A100(4xA100 DDP)の2つのハードウェア構成と比較した。
結果
画像分類
GH200は、ResNet50とResNet152において、1xA100よりもそれぞれ32.3%、39.3%高速であったが、4xA100よりもそれぞれ20.4%、30.2%低速であった。
Transformerベースのアーキテクチャでも同様の傾向が見られ、4xA100は、最も計算量の多いモデルであるViT-Hにおいて、GH200よりも42.7%高速であったが、GH200は、1xA100よりも54.3%高速であった。
物体検出
SWIN-Lバックボーンを持つDINOモデルでは、GH200は1xA100よりも72.5%高速であり、4xA100よりも9.9%高速であった。
ResNet-50バックボーンを持つFaster R-CNNでは、GH200は1xA100よりも58%、4xA100よりも90.9%低速であった。
セマンティックセグメンテーション
GH200は、SegFormerとDeepLabV3+において、1xA100よりもそれぞれ57.9%、33.7%高速であった。
GH200は、4xA100よりも、これらのネットワークにおいてそれぞれ39.3%、57.6%低速であった。
結論
GH200は、1xA100と比較して、コンピュータビジョンタスクにおいて優れた性能を発揮する。
4xA100構成と比較すると、GH200の性能はタスクとモデルのアーキテクチャによって異なる。
GH200は、最新のアーキテクチャ(Transformerベースのモデルなど)を使用した場合に優れた性能を発揮するが、従来のアーキテクチャ(CNNベースのモデルなど)を使用した場合には、従来のGPUよりも性能が劣る場合がある。
Statystyki
GP-ENGINEは、2023年10月1日から現在までに、米国で101の研究グループを支援し、115,000 GPU時間と160万 CPU時間を提供している。
GH200は、密結合されたARM CPU(72コア)とH100 GPU(14,592 CUDAコア)、および600 GBの合計RAMを搭載している。
比較対象として使用したA100 GPUは、80GBのGPUメモリと27,648個のCUDAコアを搭載している。