本文提出了一種基於交錯運算子分割(IOP)的CNN協作推論方法。傳統的協作推論方法通常會沿著輸出通道或特徵圖的高度和寬度進行水平分割,這樣會導致在不同設備上執行的運算子輸出需要進行拼接,增加了通信開銷和延遲。
IOP方法通過在相鄰的運算子之間交錯分割,即一個運算子按輸入通道分割,下一個運算子按輸出通道分割,從而避免了輸出拼接的需求,減少了通信開銷。作者還提出了一種啟發式的模型分割算法,通過選擇適合IOP配對的運算子,進一步最小化協作推論的延遲。
實驗結果表明,與現有的分割方法相比,IOP方法在LeNet、AlexNet和VGG11模型上分別實現了6.39%~16.83%的推論加速,並減少了21.22%~49.98%的峰值內存占用。隨著設備間通信延遲的增加,IOP方法的優勢越加明顯。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Zhibang Liu,... lúc arxiv.org 09-13-2024
https://arxiv.org/pdf/2409.07693.pdfYêu cầu sâu hơn