Ladda ner Linnk AI
•
Forskningsassistent
>
Logga in
insikt
-
學習率遷移
神經網路格局的超級一致性與學習率遷移
本文核心論點為,在µP與其深度擴展的參數化下,神經網路損失格局的某些特性(特別是最尖銳的動態)在不同模型大小下保持一致,這種現象被稱為「超級一致性」,而超級一致性解釋了學習率遷移現象。
1