本文提出了一種新的 GPU 叢集調度策略 PAL,旨在解決 GPU 性能變異性對機器學習工作負載造成的挑戰。
性能變異性是應用程式特定的:不同應用程式對 GPU 性能變異性的敏感度不同。本文利用這一特點,設計了一個應用程式分類器,將應用程式分成幾個類別。
PM-First 調度策略:優先將性能較好的 GPU 分配給對變異性最敏感的應用程式類別。通過 K-Means 聚類將 GPU 性能分成多個等級,以提高調度效率。
PAL 調度策略:在 PM-First 的基礎上,同時考慮 GPU 性能變異性和網路通信開銷,在這兩個因素之間進行權衡。PAL 構建了一個局部性-變異性矩陣,通過高效的矩陣遍歷算法來選擇最佳的 GPU 分配方案。
在 TACC 的 Frontera 和 Longhorn 集群上進行了實驗驗證。與現有的調度策略相比,PAL 在 GPU 密集型機器學習工作負載上顯著提高了性能,包括平均作業完成時間減少 42%,集群利用率提高 28%,makespan 減少 47%。
翻譯成其他語言
從原文內容
arxiv.org
深入探究