本論文では、Graphical Processing Unit (GPU)の最適な利用を目的として、Multi-Instance GPU (MIG)機能を活用したAI推論ワークロードの配置最適化について検討している。
まず、実際の運用で遭遇する複数のユースケースを提示している。これらのユースケースには、新規ワークロードの配置、既存ワークロードの集約、およびGPU構成の再設定が含まれる。これらのユースケースでは、可能な限りGPUの数を最小限に抑え、メモリやコンピューティングリソースの無駄を削減し、GPUの可用性を最大化することが重要となる。
次に、これらの目的を達成するための2つのアプローチを提案している。1つ目は、混合整数計画法(MIP)を用いた最適化手法であり、3つのユースケースを同時に最適化する。2つ目は、ルールベースのヒューリスティック手法であり、各ユースケースを個別に最適化する。
MIPアプローチでは、ワークロードの配置と移行を2次元のビンパッキング問題としてモデル化している。一方、ヒューリスティックアプローチは計算コストが低く、一度の移行で最適な状態を実現できるという特徴がある。
評価の結果、MIPアプローチは、初期配置、集約、再構成の各ユースケースにおいて、使用GPUの数を6-11%削減し、コンピューティングリソースの無駄を40%削減、可用性を10%向上させることができた。一方、ヒューリスティックアプローチも同等の性能を示し、大規模な最適化においてはMIPアプローチよりも計算コストが低いことが分かった。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések