מושגי ליבה
本文提出了一種名為高效記憶體矩陣儲存 (EMMS) 的新方法,並據此設計了量子模擬加速器 (QEA) 架構,旨在解決量子模擬中日益增長的記憶體需求和計算複雜性問題。
研究目標
本研究旨在解決現有量子模擬器在處理大規模量子系統時所面臨的記憶體瓶頸和計算效率問題。為此,研究者提出了一種基於現場可程式化閘陣列 (FPGA) 的量子模擬加速器 (QEA) 架構,並引入高效記憶體矩陣儲存 (EMMS) 方法和閘融合技術來優化模擬過程。
方法
高效記憶體矩陣儲存 (EMMS):採用坐標格式 (COO) 來儲存量子運算元和狀態,僅儲存非零元素及其索引,從而顯著減少記憶體佔用。
閘融合:將多個量子閘合併成單個閘,減少矩陣乘法的次數,進一步降低計算複雜度和記憶體需求。
處理元素陣列 (PEA):QEA 架構的核心,由多個處理元素 (PE) 組成,每個 PE 配備本地數據記憶體 (LDM),用於並行執行張量積和矩陣乘法運算。
複數算術邏輯單元 (ALU):針對稀疏矩陣運算進行優化,採用流水線架構,實現高效的張量積和矩陣乘法計算。
主要發現
記憶體使用效率:通過 EMMS 方法和適當的分割點選擇,記憶體需求可以顯著降低,實現對更大規模量子電路的模擬。
計算性能提升:PEA 的並行處理能力顯著減少了計算週期數,特別是在模擬量子位元數較少的電路時。
系統可擴展性:QEA 架構可以通過增加 PE 數量和 LDM 深度來支持更大規模的量子電路模擬。
主要結論
EMMS 方法和 QEA 架構為解決量子模擬中的記憶體瓶頸和計算效率問題提供了一種有效的解決方案。
通過選擇適當的 FPGA 平台和系統配置,QEA 可以滿足不同規模量子電路模擬的需求。
未來研究方向包括:將 QEA 應用於更複雜的量子演算法模擬,以及探索更高效的記憶體管理和數據傳輸機制。
סטטיסטיקה
模擬一個 20 量子位元的電路需要 0.02 GB 的記憶體。
模擬一個 32 量子位元的電路需要的記憶體需求激增至約 68.72 GB。
EMMS 方法可以將儲存空間限制在最多 3 MB。
在量子位元數少於 18 的情況下,增加 PE 數量可以顯著提升性能。
在量子位元數超過 19 的情況下,系統性能很大程度上取決於 QEA 和 DDRAM 之間的傳輸帶寬,其佔用了總執行時間的 66%。