核心概念
AIモデル運用におけるコスト削減とサービス品質の両立を実現するため、スポットインスタンスとオンデマンドインスタンスを組み合わせた動的なリソース管理システム「SkyServe」が提案されている。
要約
SkyServe: スポットインスタンスを用いたAIモデル提供
本稿は、AIモデル運用におけるコスト削減とサービス品質の両立という課題に対し、スポットインスタンスとオンデマンドインスタンスを組み合わせた動的なリソース管理システム「SkyServe」を提案する研究論文である。
近年のAIモデルの大規模化に伴い、GPUを用いたサービス運用コストが増大している。スポットインスタンスは安価だが、インスタンスの停止リスクがあるため、AIモデル運用には不向きと考えられてきた。既存のスポットインスタンス活用システムは、主にCPUインスタンスを対象としており、GPUインスタンスの可用性の低さ、同一リージョン内での相関停止、CPUとGPUの起動時間の差といった課題に対応できていない。
SkyServeは、スポットインスタンスとオンデマンドインスタンスを組み合わせ、リージョンやクラウドを跨いで動的にリソースを管理することで、上記課題の解決を図る。
SkyServeの特徴
リージョン・クラウド間での分散配置: スポットインスタンスを複数のリージョンやクラウドに分散配置することで、可用性を向上させ、相関停止の影響を軽減する。
オンデマンドインスタンスによるフォールバック: スポットインスタンスが停止した場合に備え、オンデマンドインスタンスをフォールバックとして動的に起動することで、サービスの可用性を保証する。
スポットインスタンスのオーバープロビジョニング: 停止リスクを考慮し、必要数以上のスポットインスタンスを事前に起動しておくことで、停止による影響を最小限に抑える。