核心概念
本文提出了一個名為 CXL-DMSim 的開源全系統模擬器,用於對基於 CXL 的異構記憶體系統進行高效能、高精度的模擬,並通過與真實硬體測試平台的比較驗證了其準確性和可用性。
統計資料
超過 50% 的聚合記憶體在 Google 和 Facebook 的生產叢集中大部分時間未被使用。
CXL-FPGA 記憶體的延遲比本地 DDR 高約 2.88 倍,而 CXL-ASIC 的延遲約為 2.18 倍。
CXL-FPGA 記憶體實現了本地 DDR 記憶體頻寬的 45-69%,而 CXL-ASIC 的這一數字為 82-83%。
CXL 記憶體的性能對讀/寫模式的敏感度是本地 DDR 的 3 倍,最大頻寬出現在 74%:26% 的讀/寫比例,而不是 50%:50%。
使用 CXL 記憶體擴展記憶體可以將系統吞吐量提高多達 25 倍。
在記憶體頻寬敏感的應用場景中,使用 CXL 記憶體可以將系統性能提高 16%。
引述
"It has been observed that more than 50% of the aggregated memory is unused most of the time in production clusters at Google and Facebook [2]."
"The study also reveals that CXL memory can significantly enhance the performance of memory-intensive applications, improved by 23× at most with limited local memory for Viper and approximately 16% in bandwidth-sensitive scenarios such as MERCI."