本研究では、近年の大規模言語モデルなどの大型モデルの登場により増大したAIワークロードの計算・メモリ需要に対応するため、スケーラブルなハードウェアアーキテクチャの設計が重要な課題となっていることを述べている。その解決策として、2.5Dシリコンインターポーザマルチチップモジュール(MCM)ベースのAIアクセラレータが注目されている。
しかし、従来のMCMアクセラレータは固定のデータフローを持つ均質なアーキテクチャであり、多様なモデルを含む多モデルワークロードに対する適応性が限られるという課題がある。そこで本研究では、ヘテロジニアスなデータフローを持つMCMアクセラレータに着目し、その上での多モデルワークロードのスケジューリング問題に取り組む。
具体的には、膨大なスケジューリング空間(最大で10^18スケール)を効率的に探索するためのヒューリスティックスを開発し、それらを高度な手法(チップレット間パイプラインなど)と組み合わせたスケジューラを提案している。
提案手法を10の多モデルワークロードシナリオ(データセンターマルチテナンシーとAR/VRユースケース)に適用した結果、従来の均質MCMに比べて平均35.3%および31.4%のエネルギー遅延積(EDP)の改善を達成できることを示している。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문