Core Concepts
本研究提出兩種基於多元多項式編碼的分佈式矩陣乘法方案,與傳統的單變量編碼方案相比,新方案在維持低通訊開銷的同時,能有效降低計算延遲,提升分佈式計算效率。
矩陣乘法是許多領域的基礎運算,特別是在新興的機器學習應用中。然而,當輸入矩陣來自大型數據集時,在單一伺服器上進行矩陣乘法運算將變得非常耗時。為了解決這個問題,通常將任務拆分為多個子任務,並在多個伺服器上並行執行。
然而,現代大型分佈式計算集群中的伺服器通常由小型、低端且不可靠的計算節點組成,這些節點容易受到「系統雜訊」的影響,例如由於計算或記憶體瓶頸、負載不平衡、資源爭用、硬體問題等導致的故障行為。因此,單個工作節點的任務完成時間變得難以預測,而最慢的工作節點會主導整體計算時間。這就是文獻中所說的「掉隊者問題」。
編碼計算為解決掉隊者問題提供了一種有效的方法。與依賴子任務重複的傳統方案不同,在編碼計算中,任何延遲的子任務都可以被任何其他子任務替換。因此,基於編碼計算的解決方案在任務完成時間方面提供了數量級的改進。
本文針對分佈式矩陣乘法提出兩種基於多元多項式編碼的新方案,旨在提高計算效率並降低通訊開銷。
單變量多項式編碼
現有研究已提出基於單變量多項式編碼的分佈式矩陣乘法方案,例如糾纏多項式編碼。然而,這些方案在處理任意矩陣分區時效率低下,無法在計算複雜度和下載通訊成本之間取得平衡。
多元多項式編碼
為了解決上述問題,本文提出兩種基於多元多項式編碼的新方案:
雙變量多項式編碼: 將與其中一個輸入矩陣相關聯的編碼矩陣分區使用雙變量多項式進行編碼,而將與另一個輸入矩陣相關聯的編碼矩陣分區使用單變量多項式進行編碼。
三變量多項式編碼: 將與兩個輸入矩陣相關聯的編碼矩陣分區分別使用兩個雙變量多項式進行編碼。
與單變量編碼方案相比,多元編碼方案可以顯著降低上傳通訊開銷,但代價是增加計算複雜度。