Kernkonzepte
本文核心論點為,在µP與其深度擴展的參數化下,神經網路損失格局的某些特性(特別是最尖銳的動態)在不同模型大小下保持一致,這種現象被稱為「超級一致性」,而超級一致性解釋了學習率遷移現象。
研究背景
近年來,深度學習研究趨勢明顯朝向增加模型規模的方向發展,擁有數十億個參數的網路已成為標準。然而,隨著模型規模的擴大,超參數調整的成本也隨之增加,這促使研究人員尋找在擴展網路寬度和深度的同時,又能保留最佳超參數(例如學習率)的方法。
現有方法的限制
雖然目前已有多種方法(又稱參數化)可以擴展網路的寬度和深度,但並非所有方法都能促進學習率的遷移。對於標準的深度學習實務,例如使用 LeCun/Kaiming 初始化方法參數化的網路,當模型的寬度和深度增加時,通常會觀察到最佳學習率的顯著變化。同樣地,在神經正切核 (NTK) 參數化下,該方法提供了關於訓練過程中超寬神經網路行為的理論見解,最佳學習率也會隨著網路寬度和深度的變化而變化。
µP 框架與超級一致性
Yang 和 Hu (2021);Yang 等人 (2022) 提出了 µP 框架,旨在隨著寬度的增加,最大化中間層表示的梯度更新(即特徵學習)。在 µP 尺度及其針對殘差網路的深度擴展 Depth-µP (Bordelon 等人,2023;Yang 等人,2023) 下,經驗證明學習率可以在寬度和深度上進行遷移。
本研究發現,在 µP 和 Depth-µP 下,損失 Hessian 的最大特徵值具備超級一致性,這些特徵值會收斂到一個很大程度上與寬度無關的閾值,並在剩餘的訓練過程中保持不變。另一方面,研究顯示,其他量(例如訓練損失和 NTK 特徵值)會累積顯著的有限尺寸效應。
超級一致性與學習率遷移的關係
研究發現,尖銳度的超級一致性與 µP、Depth-µP、NTP 和其他參數化下的學習率遷移之間存在關聯性。對於 µP 和 Depth-µP(確實發生遷移),尖銳度保持超級一致性,穩定在一個閾值(在某些情況下對應於穩定性邊緣 (EoS) (Cohen 等人,2021)),並在一段持續的訓練時間內圍繞該閾值振盪。另一方面,在 NTP、標準參數化 (SP) 或每個殘差塊具有多層的 Depth-µP 下,不同寬度的尖銳度動態在訓練過程中會以不同的方式顯著分離。此外,在這些情況下,沒有觀察到遷移現象。
特徵學習與漸進尖銳化的關係
研究發現漸進尖銳化階段主要由 NTK 的最大特徵值驅動,該特徵值對於 NTP 漸近固定在其初始值,而在 µP 下則在任何寬度下都會隨時間變化。
結論
總之,本研究證明了在 µP 與其深度擴展的參數化下,神經網路損失格局的某些特性(特別是最尖銳的動態)在不同模型大小下保持一致,這種現象被稱為「超級一致性」。超級一致性解釋了學習率遷移現象,並為設計新的步長調節器提供了方向。
Statistiken
在 µP 框架下,Hessian 矩陣的最大特徵值在訓練過程中呈現出超級一致性,即它們在不同寬度的模型中幾乎完全相同。
相反,在 NTK 參數化下,隨著模型寬度的增加,Hessian 矩陣的最大特徵值會減小。
在 Depth-µP 模型中,尖銳度的動態也隨著深度的變化而保持超級一致性,儘管它會逐漸偏離穩定性邊緣閾值。
當每個殘差塊有多層時,Depth-µP 模型的尖銳度動態不一致,並且會隨著時間的推移累積有限尺寸效應。