核心概念
提出一種實用的自適應深度網路方法,可應用於卷積神經網路和轉換器,並且訓練成本較低。該方法通過將每個階段的殘差塊分成兩個子路徑,並訓練它們具有不同的特性,使得第二個子路徑可以在推理時被跳過,從而實現不同的精度-效率權衡。
摘要
本文提出了一種自適應深度網路的架構模式和訓練方法,可以應用於各種網路,如卷積神經網路和視覺轉換器。在該架構中,每個殘差階段被分成兩個子路徑:第一個子路徑是必須的,用於層次特徵學習;第二個子路徑被優化為即使被跳過也能最小化性能下降。
為了實現第二個子路徑的這一特性,作者提出了一種簡單的自蒸餾策略,只使用最大的子網路(超網路)和最小的子網路(基礎網路)作為教師和學生。這種訓練方法不需要對每個目標子網路進行詳盡的訓練,因此訓練時間大大縮短。但是,在推理時,可以通過以組合方式連接這些子路徑,從單個網路中選擇具有各種精度-效率權衡的子網路。
作者還提供了一個正式的理由,說明所提出的訓練方法如何在最小化子路徑跳過的影響的同時,減少整體預測錯誤。實驗結果表明,該方法在卷積神經網路和視覺轉換器上都具有普遍性和有效性。
統計資料
我們提出的自適應深度網路在ImageNet分類任務上,與對應的個別網路相比,超網路的準確率提高了0.9%,基礎網路的準確率提高了1.1%。
引述
"我們提出的自適應深度網路在ImageNet分類任務上,與對應的個別網路相比,超網路的準確率提高了0.9%,基礎網路的準確率提高了1.1%。"
"我們的方法不需要對每個目標子網路進行詳盡的訓練,因此訓練時間大大縮短。"