核心概念
深度神經網路 (DNN) 在訓練過程中會收斂到一種最小特徵 (MF) 模式,其中僅使用與類別數量相等的特徵來進行分類,這種行為類似於神經崩潰現象,並且通常與最佳的泛化性能相關。
摘要
透過對前向特徵映射進行對角化來視覺化深度神經網路中的特徵學習
參考資訊: Nam, Y., Mingard, C., Lee, S. H., Hayou, S., & Louis, A. (2024). Visualising Feature Learning in Deep Neural Networks by Diagonalizing the Forward Feature Map. arXiv preprint arXiv:2410.04264v1.
研究目標: 本研究旨在開發一種視覺化和量化深度神經網路 (DNN) 中特徵學習的方法。
方法: 作者提出了一種基於將 DNN 分解為前向特徵映射和最終線性層的方法。他們通過相對於梯度下降算子對特徵映射進行對角化,並跟踪特徵學習如何在訓練期間改變特徵映射的本徵函數和本徵值來分析特徵學習。
主要發現:
在許多流行的架構和分類數據集中,DNN 在僅僅幾個時期後就會收斂到一種最小特徵 (MF) 模式,在這種模式下,主導特徵的數量等於類別的數量。
這種行為類似於在較長訓練時間內研究的神經崩潰現象。
對於其他 DNN 數據組合,例如 CIFAR10 上的全連接網路,作者發現了一個擴展特徵 (EF) 模式,其中使用了更多的特徵。
超參數調整後的最佳泛化性能通常與 MF 模式一致,但作者也發現了 MF 模式內性能不佳的例子。
主要結論: 作者的研究結果表明,MF 模式是 DNN 中一種普遍存在的現象,它可能與實現良好的泛化性能有關。他們提出的視覺化方法為分析和理解 DNN 中的特徵學習提供了一種新的方法。
論文貢獻:
引入了一種基於將 DNN 分解為前向特徵映射和最終線性層來監控 DNN 中特徵學習的計算高效方法。
區分了係數學習(當沒有發生特徵學習並且僅學習最終層參數時)與最小特徵 (MF) 模式(其中描述學習函數的特徵數量等於類別數量)和涵蓋兩者之間行為的擴展特徵 (EF) 學習模式。
發現隨著訓練集大小 n 的增加,特徵學習可以從 EF 模式變為 MF 模式。此外,測試誤差和損失隨訓練集大小 n 的縮放指數在 MF 模式從 EF 模式出現後增加。
表明 MF 模式可以在訓練的早期出現,甚至在僅僅幾個時期之後。
發現將輸出乘以一個常數(如進入所謂的惰性模式所做的那樣——其中 DNN 訓練可以用線性模型來描述)將特徵學習從典型 DNN 寬度(其中 p ≪ n)的 MF 模式轉變為 EF 模式。為了完全消除特徵學習,DNN 必須更寬,對於更複雜的數據集,p ≳ n。
作者提出的方法允許在遷移學習的背景下視覺化和分析特徵的質量。
發現即使在隨機數據上也可以獲得 MF 模式,這表明其起源於訓練動態。
在超參數調整後,作者發現通常(但並非總是)更嚴格的 MF 模式會帶來更好的性能。
將神經崩潰現象重新定義為一個核框架,可以擴展到更廣泛的任務,例如回歸。
研究限制和未來研究方向:
未來的工作可以探索 MF 模式和泛化性能之間關係背後的理論依據。
作者提出的方法可以應用於分析其他類型的深度學習模型,例如生成對抗網路 (GAN) 和變分自動編碼器 (VAE)。
統計資料
對於 MNIST 數據集,一個寬度為 p = 1024 的 CNN 可以通過兩種不同的方式訓練到 100% 的訓練準確率。
對於更複雜的數據集(例如 CIFAR10 和 CIFAR100),估計需要與訓練集大小相當的最終層寬度才能實現零訓練誤差。