這篇研究論文介紹了 OpenCUBE,一個由歐盟委員會資助的項目,旨在開發一個基於歐洲處理器計劃 (EPI) 硬體的完整開源雲端計算軟體堆疊。該項目於 2023 年 1 月啟動,旨在滿足從邊緣到雲端和高效能運算 (HPC) 的各種工作負載需求,並優先考慮能源效率。
OpenCUBE 採用注重軟硬體緊密介面的方法,分為四個主要方向:硬體平台、中介軟體、異構資料中心 (DC) 和應用程式。
專為託管 EPI 系統而設計,例如 SiPearl Rhea 和 Semidynamics RISC-V 處理器。該設計適用於滿足雲端原生和 HPC 工作負載的需求。此外,硬體平台還為異構資料中心的作業系統和中介軟體設計提供輸入。在早期階段,將構建一個原型平台,以利用商用雲端系統中提供的基於 ARM 的處理器、基於高速乙太網路的互連以及 EPAC RISC-V 加速器。
將利用和擴展開源組件,以支援新發布的硬體功能,用於監控和管理硬體平台上的資源。系統管理服務和作業系統的擴展將設計為利用高速乙太網路,並在各個系統級別實現電源感知,以提高能源效率和效能。開源分析工具將適應新的 CPU 架構,以改進效能調整和除錯。
將通過專門適應硬體平台和目標工作負載的開源中介軟體來部署。特別是,OpenCUBE 中介軟體將專注於提高節點上異構計算和記憶體資源的利用率。此外,還將開發擴展功能,以通過快速網路實現記憶體分解,以便在工作流程中進行記憶體擴展或資料暫存。高性能網路軟體旨在支援在基於雲端的容器化環境中高效執行應用程式。例如,MPI 是傳統 HPC 應用程式的主要通訊 API。然而,它為傳統 HPC 設置和排程器開發的相對靜態模型需要針對基於雲端的應用程式部署進行修改和調整,例如,使用最近推出的 MPI Sessions 概念 [2]。
將與硬體、軟體和資料中心中介軟體方向互動,以輸入工作負載需求。OpenCUBE 堆疊將通過這些應用程式進行驗證和評估,包括針對從雲端、HPC 和邊緣計算的雲端原生工作負載和工作流程。這些應用程式將在整個堆疊的開發過程中持續提供回饋。例如,ECMWF [1] 的 IFS 將推動通用資料儲存中介軟體的客製化。一個整合了基於機器學習的分析和基於 iPIC3D [3] 的模擬的工作流程將指導融合 HPC 和雲端的軟體堆疊。基於 AutoDock [7](一種廣泛使用的用於藥物發現的分子對接軟體)的虛擬篩選工作流程將用於驗證異構資源上的基於雲端的工作流程。
在第一階段,我們正在部署一個由四台 HPE ProLiant RL300 伺服器組成的機架原型硬體平台,這些伺服器配備 256 GB DDR4 記憶體和至少 1 TB NVMe SSD,用於配置 Fabric 附加記憶體。採用 FPGA 模擬器來整合 EPAC RISC-V 處理器以進行加速。該平台配備了 Slingshot 互連,包括一個 Cassini 交換機 GB 乙太網路和 Cassini 網路介面卡。
為了支援雲端原生工作流程,我們研究了一個流行的工作流程管理軟體 Apache Airflow。作為案例研究,我們使用了藥物發現中的虛擬篩選軟體 AutoDock,以實現雲端上自動彈性分子對接的工作流程 [4]。我們的初步結果證實了部署到容器化環境的可行性。我們研究了最先進的分解記憶體技術,例如用於可擴展異構資料中心架構的計算機快速鏈接 (CXL)。我們開發了一個以記憶體為中心的分析工具和一個軟體模擬框架,以定量探索設計空間 [9]。
為了實現雲端和 HPC 之間的融合計算,我們在開源容器協調器 Kubernetes 之上開發了一個框架,可以重複使用已配置的基礎架構。此功能支援對緊密耦合的基於 MPI 的應用程式進行自動橫向擴展,這在傳統 HPC 系統上實現起來很麻煩 [5]。在分析應用程式需求以輸入 OpenCUBE 堆疊設計時,我們還發現了由於大量同步點導致的歸約操作中的可擴展性瓶頸。我們提出了一種基於矩陣的多維歸約演算法,用於加速評分函數的局部搜索,並探索了一種基於張量的實現,用於優化分子對接過程 [8]。結果表明,在真實世界的對接場景中,平均對接時間縮短了 25% 以上。
在構建開源雲端藍圖的路線圖上,OpenCUBE 項目採用了一種注重軟硬體開發之間緊密互動的方法,以在 EPI 系統上創建開源雲端藍圖。OpenCUBE 中的原型實現將通過工業和消費者雲端應用程式進行驗證和評估。支援自適應 MPI 通訊設置(例如會話)的開發也將為標準化機構提供回饋 [6]。OpenCUBE 的路線圖將原型硬體基礎架構的主要升級與 EPI 生產的晶片保持一致。同時,在基於 Sipearl Rhea 和 Semidynamics RISC-V 處理器設計和開發 OpenCUBE 堆疊過程中學到的見解和發現將回饋給開源、EPI 和計算連續體社群。
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Ivy Peng, Ma... lúc arxiv.org 10-15-2024
https://arxiv.org/pdf/2410.10423.pdfYêu cầu sâu hơn