本文提出了一種自適應深度網路的架構模式和訓練方法,可以應用於各種網路,如卷積神經網路和視覺轉換器。在該架構中,每個殘差階段被分成兩個子路徑:第一個子路徑是必須的,用於層次特徵學習;第二個子路徑被優化為即使被跳過也能最小化性能下降。
為了實現第二個子路徑的這一特性,作者提出了一種簡單的自蒸餾策略,只使用最大的子網路(超網路)和最小的子網路(基礎網路)作為教師和學生。這種訓練方法不需要對每個目標子網路進行詳盡的訓練,因此訓練時間大大縮短。但是,在推理時,可以通過以組合方式連接這些子路徑,從單個網路中選擇具有各種精度-效率權衡的子網路。
作者還提供了一個正式的理由,說明所提出的訓練方法如何在最小化子路徑跳過的影響的同時,減少整體預測錯誤。實驗結果表明,該方法在卷積神經網路和視覺轉換器上都具有普遍性和有效性。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Woochul Kang... о arxiv.org 10-01-2024
https://arxiv.org/pdf/2312.16392.pdfГлибші Запити