المفاهيم الأساسية
提出一種新的知識蒸餾框架KRDistill,通過矯正教師網絡的不平衡特徵表示和錯誤預測,為學生網絡提供平衡和精確的知識,從而在長尾場景下有效地訓練可靠的學生網絡。
الملخص
本文提出了一種新的知識蒸餾框架KRDistill,以解決長尾場景下的數據不平衡問題。
首先,文章指出傳統的知識蒸餾方法假設訓練數據是平衡的,但實際應用中數據分佈往往呈現長尾特徵,即少數頭部類別佔據大部分樣本,而其餘尾部類別只有很少樣本。這種不平衡會導致教師網絡偏向頭部類別,從而無法為學生網絡提供可靠的知識。
為解決這一問題,KRDistill提出了兩個關鍵操作:
-
特徵矯正:通過引入理想的特徵表示先驗,調整教師網絡的不平衡特徵表示,增強特徵知識的傳遞,使學生網絡能夠有效學習。
-
邏輯矯正:矯正教師網絡由於數據不平衡而產生的錯誤預測,確保學生網絡獲得無偏的類別知識。
實驗結果表明,KRDistill在五個長尾數據集上均取得了最佳性能,證明了其在長尾場景下有效訓練可靠學生網絡的能力。
الإحصائيات
在CIFAR10-LT數據集上,當不平衡率ρ=100時,KRDistill的學生網絡Top-1準確率為86.2%,優於傳統方法VKD的80.3%和先進方法BKD的85.3%。
在CIFAR100-LT數據集上,當不平衡率ρ=100時,KRDistill的學生網絡Top-1準確率為52.7%,優於VKD的46.0%和BKD的51.7%。
在ImageNet-LT數據集上,KRDistill的學生網絡在頭部、中部和尾部類別的Top-1準確率分別為57.9%、36.9%和21.7%,整體Top-1準確率為42.9%,優於VKD的36.3%和BKD的42.5%。
在Places365-LT數據集上,KRDistill的學生網絡在頭部、中部和尾部類別的Top-1準確率分別為41.3%、27.6%和15.0%,整體Top-1準確率為30.1%,優於VKD的24.7%和BKD的29.8%。
在iNaturalist2018數據集上,KRDistill的學生網絡在頭部、中部和尾部類別的Top-1準確率分別為72.2%、68.6%和68.4%,整體Top-1準確率為68.9%,優於VKD的64.1%和BKD的68.4%。
اقتباسات
"在長尾場景下,教師網絡訓練後不可避免地會過擬合頭部類別,同時欠擬合尾部類別。因此,教師網絡容易產生錯誤的預測,尤其是對於尾部類別。"
"將這些錯誤的預測傳遞給學生網絡將導致錯誤的累積,從而造成嚴重的性能下降。"
"為了緩解知識蒸餾過程中的錯誤累積,並確保學生網絡的可靠性,我們提出了一種邏輯矯正蒸餾,以矯正和平衡教師的預測。"