toplogo
Iniciar sesión

OpenCUBE:利用 EPI 系統構建開源雲端藍圖


Conceptos Básicos
OpenCUBE 項目旨在開發一個基於歐洲處理器計劃 (EPI) 硬體的完整開源雲端計算軟體堆疊,以滿足從邊緣到雲端和高效能運算 (HPC) 的各種工作負載需求,並優先考慮能源效率。
Resumen

OpenCUBE 項目概述

這篇研究論文介紹了 OpenCUBE,一個由歐盟委員會資助的項目,旨在開發一個基於歐洲處理器計劃 (EPI) 硬體的完整開源雲端計算軟體堆疊。該項目於 2023 年 1 月啟動,旨在滿足從邊緣到雲端和高效能運算 (HPC) 的各種工作負載需求,並優先考慮能源效率。

OpenCUBE 的方法

OpenCUBE 採用注重軟硬體緊密介面的方法,分為四個主要方向:硬體平台、中介軟體、異構資料中心 (DC) 和應用程式。

硬體平台

專為託管 EPI 系統而設計,例如 SiPearl Rhea 和 Semidynamics RISC-V 處理器。該設計適用於滿足雲端原生和 HPC 工作負載的需求。此外,硬體平台還為異構資料中心的作業系統和中介軟體設計提供輸入。在早期階段,將構建一個原型平台,以利用商用雲端系統中提供的基於 ARM 的處理器、基於高速乙太網路的互連以及 EPAC RISC-V 加速器。

作業系統和軟體

將利用和擴展開源組件,以支援新發布的硬體功能,用於監控和管理硬體平台上的資源。系統管理服務和作業系統的擴展將設計為利用高速乙太網路,並在各個系統級別實現電源感知,以提高能源效率和效能。開源分析工具將適應新的 CPU 架構,以改進效能調整和除錯。

可擴展的異構資料中心架構

將通過專門適應硬體平台和目標工作負載的開源中介軟體來部署。特別是,OpenCUBE 中介軟體將專注於提高節點上異構計算和記憶體資源的利用率。此外,還將開發擴展功能,以通過快速網路實現記憶體分解,以便在工作流程中進行記憶體擴展或資料暫存。高性能網路軟體旨在支援在基於雲端的容器化環境中高效執行應用程式。例如,MPI 是傳統 HPC 應用程式的主要通訊 API。然而,它為傳統 HPC 設置和排程器開發的相對靜態模型需要針對基於雲端的應用程式部署進行修改和調整,例如,使用最近推出的 MPI Sessions 概念 [2]。

驅動應用程式和工作流程

將與硬體、軟體和資料中心中介軟體方向互動,以輸入工作負載需求。OpenCUBE 堆疊將通過這些應用程式進行驗證和評估,包括針對從雲端、HPC 和邊緣計算的雲端原生工作負載和工作流程。這些應用程式將在整個堆疊的開發過程中持續提供回饋。例如,ECMWF [1] 的 IFS 將推動通用資料儲存中介軟體的客製化。一個整合了基於機器學習的分析和基於 iPIC3D [3] 的模擬的工作流程將指導融合 HPC 和雲端的軟體堆疊。基於 AutoDock [7](一種廣泛使用的用於藥物發現的分子對接軟體)的虛擬篩選工作流程將用於驗證異構資源上的基於雲端的工作流程。

初步結果和路線圖

在第一階段,我們正在部署一個由四台 HPE ProLiant RL300 伺服器組成的機架原型硬體平台,這些伺服器配備 256 GB DDR4 記憶體和至少 1 TB NVMe SSD,用於配置 Fabric 附加記憶體。採用 FPGA 模擬器來整合 EPAC RISC-V 處理器以進行加速。該平台配備了 Slingshot 互連,包括一個 Cassini 交換機 GB 乙太網路和 Cassini 網路介面卡。

為了支援雲端原生工作流程,我們研究了一個流行的工作流程管理軟體 Apache Airflow。作為案例研究,我們使用了藥物發現中的虛擬篩選軟體 AutoDock,以實現雲端上自動彈性分子對接的工作流程 [4]。我們的初步結果證實了部署到容器化環境的可行性。我們研究了最先進的分解記憶體技術,例如用於可擴展異構資料中心架構的計算機快速鏈接 (CXL)。我們開發了一個以記憶體為中心的分析工具和一個軟體模擬框架,以定量探索設計空間 [9]。

為了實現雲端和 HPC 之間的融合計算,我們在開源容器協調器 Kubernetes 之上開發了一個框架,可以重複使用已配置的基礎架構。此功能支援對緊密耦合的基於 MPI 的應用程式進行自動橫向擴展,這在傳統 HPC 系統上實現起來很麻煩 [5]。在分析應用程式需求以輸入 OpenCUBE 堆疊設計時,我們還發現了由於大量同步點導致的歸約操作中的可擴展性瓶頸。我們提出了一種基於矩陣的多維歸約演算法,用於加速評分函數的局部搜索,並探索了一種基於張量的實現,用於優化分子對接過程 [8]。結果表明,在真實世界的對接場景中,平均對接時間縮短了 25% 以上。

在構建開源雲端藍圖的路線圖上,OpenCUBE 項目採用了一種注重軟硬體開發之間緊密互動的方法,以在 EPI 系統上創建開源雲端藍圖。OpenCUBE 中的原型實現將通過工業和消費者雲端應用程式進行驗證和評估。支援自適應 MPI 通訊設置(例如會話)的開發也將為標準化機構提供回饋 [6]。OpenCUBE 的路線圖將原型硬體基礎架構的主要升級與 EPI 生產的晶片保持一致。同時,在基於 Sipearl Rhea 和 Semidynamics RISC-V 處理器設計和開發 OpenCUBE 堆疊過程中學到的見解和發現將回饋給開源、EPI 和計算連續體社群。

edit_icon

Personalizar resumen

edit_icon

Reescribir con IA

edit_icon

Generar citas

translate_icon

Traducir fuente

visual_icon

Generar mapa mental

visit_icon

Ver fuente

Estadísticas
平均對接時間縮短了 25% 以上。
Citas

Ideas clave extraídas de

by Ivy Peng, Ma... a las arxiv.org 10-15-2024

https://arxiv.org/pdf/2410.10423.pdf
OpenCUBE: Building an Open Source Cloud Blueprint with EPI Systems

Consultas más profundas

OpenCUBE 项目如何应对未来云计算领域不断变化的需求和挑战?

OpenCUBE 项目应对未来云计算领域不断变化的需求和挑战,主要体现在以下几个方面: 灵活性与适应性: OpenCUBE 采用模块化设计,基于开放 API 和开源组件构建,使其能够灵活地适应未来新的硬件、软件和应用需求。项目可以根据新兴技术和应用趋势,不断更新和扩展其软件堆栈,例如整合新的 AI/ML 算法、支持 Serverless 计算等。 异构计算与内存分解: OpenCUBE 支持异构计算架构,并致力于实现内存分解技术,以满足未来云计算对更高性能和灵活性的需求。通过高效利用 SiPearl Rhea 处理器和 Semidynamics RISC-V 加速器等异构资源,以及通过高速网络实现内存资源的灵活分配,OpenCUBE 可以更好地支持数据密集型应用和新兴工作负载。 能源效率: OpenCUBE 将能源效率视为核心设计理念,通过软硬件协同设计,在从核心、插槽、节点到电网的各个层级实现功耗感知和优化。这对于应对未来云计算对可持续发展的需求至关重要。 持续改进与社区驱动: 作为开源项目,OpenCUBE 受益于开源社区的协作和创新。来自社区的反馈和贡献将推动项目不断改进,并使其能够快速适应未来云计算领域的新需求和挑战。 总而言之,OpenCUBE 项目通过其灵活的架构、对异构计算和能源效率的关注,以及开源和社区驱动的开发模式,为应对未来云计算领域不断变化的需求和挑战做好了准备。

如果 EPI 处理器的发展不如预期,OpenCUBE 项目是否还有其他备选方案?

OpenCUBE 项目的设计理念是构建一个开放、灵活的云计算平台,并不局限于特定的硬件平台。虽然项目目前以 EPI 处理器为目标平台,但如果 EPI 处理器的发展不如预期,项目仍然可以探索其他备选方案: 采用其他 RISC-V 处理器: OpenCUBE 可以选择其他符合 RISC-V 架构的处理器,例如其他欧洲厂商开发的处理器,或者来自开源社区的 RISC-V 处理器设计。 支持 x86 架构: OpenCUBE 可以扩展其软件堆栈,以支持 x86 架构的处理器,从而利用现有的 x86 服务器生态系统。 混合架构: OpenCUBE 可以采用混合架构,整合不同类型的处理器,例如结合 RISC-V 和 x86 处理器,以满足不同应用场景的需求。 值得注意的是,OpenCUBE 项目的软件堆栈设计,例如对异构计算和内存分解的支持,可以相对容易地移植到其他硬件平台。此外,项目积累的经验和知识,例如在功耗管理和性能优化方面的研究成果,也可以应用于其他处理器架构。 总而言之,OpenCUBE 项目的开放性和灵活性使其能够适应不同的硬件平台。即使 EPI 处理器的发展不如预期,项目仍然可以通过采用其他处理器架构或混合架构,继续推进其目标,构建一个面向未来的欧洲云计算平台。

OpenCUBE 项目的开源性质将如何影响云计算领域的创新和竞争?

OpenCUBE 项目的开源性质将对云计算领域的创新和竞争产生积极而深远的影响: 加速技术创新: 开源能够促进技术的快速迭代和创新。OpenCUBE 开放的软件堆栈和 API,将使更多开发者能够参与到云计算技术的研究和开发中,推动新功能、新应用和新服务的出现。 降低进入门槛: OpenCUBE 将降低企业和开发者进入云计算领域的門檻。通过提供一个开源的、可定制的云计算平台,OpenCUBE 使得更多组织能够构建自己的云服务,而无需依赖大型云服务提供商。 促进生态系统发展: OpenCUBE 将促进围绕开源云计算技术构建的生态系统发展。这将吸引更多硬件厂商、软件开发者和服务提供商加入,共同推动技术进步和市场增长。 增强欧洲云计算竞争力: OpenCUBE 项目的目标是构建一个基于欧洲技术的云计算平台,这将有助于增强欧洲在云计算领域的竞争力,打破美国科技巨头在该领域的垄断地位。 然而,开源也带来了一些挑战: 碎片化风险: 开源项目可能面临碎片化的风险,不同的开发者和组织可能开发不同的版本和分支,导致生态系统分裂。 可持续性问题: 开源项目的长期可持续性依赖于社区的贡献和支持。 为了应对这些挑战,OpenCUBE 项目需要: 建立强大的社区: 积极构建活跃的开发者社区,吸引更多贡献者参与项目的开发和维护。 制定清晰的治理机制: 建立有效的治理机制,确保项目的长期发展方向和决策的透明度。 寻求商业支持: 积极寻求商业合作伙伴,将 OpenCUBE 技术商业化,为项目的长期发展提供资金和资源支持。 总而言之,OpenCUBE 项目的开源性质将为云计算领域带来积极的改变,促进技术创新、降低进入门槛、促进生态系统发展,并增强欧洲云计算的竞争力。通过积极应对开源带来的挑战,OpenCUBE 项目有望成为欧洲云计算发展的重要推动力。
0
star