本論文は、Cerebras Wafer-Scale Engine (WSE)上での効率的な縮小演算(Reduce)とオールリダクション(AllReduce)の実現に取り組んでいる。WSEは機械学習ワークロードや高速フーリエ変換などの計算問題で前例のない性能を達成することが示されている。
まず、WSE上での実行時間を正確に推定するためのパフォーマンスモデルを提案する。このモデルは、深さ、距離、競合、エネルギーといった要因を分離して評価し、実験的に検証されている。既存の実装に加え、アーキテクチャに特化した新しいアルゴリズムも設計・実装している。さらに、WSE上での縮小演算の実行時間の下限を明らかにしている。
モデルに基づいて自動的に生成されたコードは、既存の実装よりも最大3.27倍の性能を発揮する。また、モデルの予測誤差は4%未満に抑えられている。提案する通信コレクティブにより、WSEの高スループットを活用できる HPC アプリケーションの範囲が広がる。このモデル駆動型のアプローチは、ウェハスケールアーキテクチャでのさらなるアルゴリズム改善につながる。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Piotr Luczyn... às arxiv.org 04-25-2024
https://arxiv.org/pdf/2404.15888.pdfPerguntas Mais Profundas