핵심 개념
提出了一種交錯運算子分割(IOP)的協作推論方法,通過在相鄰運算子之間交錯分割,減少了數據共享的通信開銷,從而降低了協作推論的延遲。
초록
本文提出了一種基於交錯運算子分割(IOP)的CNN協作推論方法。傳統的協作推論方法通常會沿著輸出通道或特徵圖的高度和寬度進行水平分割,這樣會導致在不同設備上執行的運算子輸出需要進行拼接,增加了通信開銷和延遲。
IOP方法通過在相鄰的運算子之間交錯分割,即一個運算子按輸入通道分割,下一個運算子按輸出通道分割,從而避免了輸出拼接的需求,減少了通信開銷。作者還提出了一種啟發式的模型分割算法,通過選擇適合IOP配對的運算子,進一步最小化協作推論的延遲。
實驗結果表明,與現有的分割方法相比,IOP方法在LeNet、AlexNet和VGG11模型上分別實現了6.39%~16.83%的推論加速,並減少了21.22%~49.98%的峰值內存占用。隨著設備間通信延遲的增加,IOP方法的優勢越加明顯。
통계
與OC分割方法相比,IOP方法在LeNet、AlexNet和VGG11模型上分別減少了31.53%、21.06%和12.82%的推論時間。
與CoEdge分割方法相比,IOP方法在LeNet、AlexNet和VGG11模型上分別減少了12.05%、16.83%和6.39%的推論時間。
與CoEdge方法相比,IOP方法在LeNet、AlexNet和VGG11模型上分別減少了49.98%、21.22%和40.79%的峰值內存占用。
인용구
"通過在相鄰的運算子之間交錯分割,即一個運算子按輸入通道分割,下一個運算子按輸出通道分割,從而避免了輸出拼接的需求,減少了通信開銷。"
"實驗結果表明,與現有的分割方法相比,IOP方法在LeNet、AlexNet和VGG11模型上分別實現了6.39%~16.83%的推論加速,並減少了21.22%~49.98%的峰值內存占用。"