toplogo
サインイン

ヘテロジニアス・マルチチップレット・モジュール・アクセラレータ上での多モデルAIワークロードのスケジューリング


核心概念
ヘテロジニアスなデータフローを持つマルチチップレットモジュールAIアクセラレータを活用し、多モデルワークロードのスケジューリングを最適化する。
要約
本研究では、近年の大規模言語モデルなどの大型モデルの登場により増大したAIワークロードの計算・メモリ需要に対応するため、スケーラブルなハードウェアアーキテクチャの設計が重要な課題となっていることを述べている。その解決策として、2.5Dシリコンインターポーザマルチチップモジュール(MCM)ベースのAIアクセラレータが注目されている。 しかし、従来のMCMアクセラレータは固定のデータフローを持つ均質なアーキテクチャであり、多様なモデルを含む多モデルワークロードに対する適応性が限られるという課題がある。そこで本研究では、ヘテロジニアスなデータフローを持つMCMアクセラレータに着目し、その上での多モデルワークロードのスケジューリング問題に取り組む。 具体的には、膨大なスケジューリング空間(最大で10^18スケール)を効率的に探索するためのヒューリスティックスを開発し、それらを高度な手法(チップレット間パイプラインなど)と組み合わせたスケジューラを提案している。 提案手法を10の多モデルワークロードシナリオ(データセンターマルチテナンシーとAR/VRユースケース)に適用した結果、従来の均質MCMに比べて平均35.3%および31.4%のエネルギー遅延積(EDP)の改善を達成できることを示している。
統計
単一モデルのBERT-Lを6x6チップレットMCMに割り当てる場合でも、スケジューリング空間は10^18スケールに達する。 提案手法は、データセンターマルチテナンシーシナリオで平均35.3%、AR/VRシナリオで平均31.4%のEDP改善を達成した。
引用
なし

深掘り質問

ヘテロジニアスMCMアーキテクチャの設計パラメータ(チップレット数、データフロー構成など)がスケジューリング性能にどのように影響するか?

ヘテロジニアスMCMアーキテクチャの設計パラメータはスケジューリング性能に大きな影響を与えます。例えば、チップレット数が増加すると、スケジューリングスペースの複雑さが増し、探索時間が増加します。一方、データフロー構成が異なる場合、異なるチップレット間での通信コストやデータ移動の効率が異なるため、スケジューリングの最適化に影響を与えます。さらに、チップレット間の通信帯域やメモリサイズなどのパラメータもスケジューリング性能に影響を与える要因となります。

モデルの特性(計算量、メモリ使用量など)によって、提案手法の性能はどのように変化するか?

モデルの特性、特に計算量やメモリ使用量などが異なる場合、提案手法の性能に大きな影響を与えます。計算量が多いモデルは、より多くのリソースを必要とし、スケジューリングの複雑さが増します。メモリ使用量が大きいモデルは、データの移動やアクセスにより多くの時間とエネルギーを必要とするため、スケジューリングの効率性に影響を与えます。提案手法は、異なるモデル特性に適応できる柔軟性があり、計算量やメモリ使用量が異なるモデルでも効果的なスケジューリングを行うことができます。

ヘテロジニアスMCMアーキテクチャを活用した場合、どのようなアプリケーションシナリオでより大きな効果が期待できるか?

ヘテロジニアスMCMアーキテクチャを活用すると、特に複数の異なるモデルを同時に実行するようなマルチモデルワークロードの場合に大きな効果が期待されます。例えば、データセンターのマルチテナンシーシナリオやAR/VRのようなリアルタイムマルチモデルワークロードでは、異なるモデルの特性や要求に柔軟に対応できるヘテロジニアスMCMアーキテクチャが効果を発揮します。さらに、異なるアプリケーション間でのリソース共有や効率的なデータフロー管理が必要な場合にも、ヘテロジニアスMCMアーキテクチャは優れた性能を発揮するでしょう。
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star