核心概念
深度 ReLU 網路在初始化和梯度下降訓練後,其形成的多面體結構比預期中簡單許多,這顯示深度網路傾向於學習一個由簡單多面體組成的函數,並揭示了一種新的內在簡化偏差。
這篇研究論文深入探討了深度 ReLU 網路中多面體的形狀特性,超越了以往僅計算多面體數量的研究範疇。
研究背景
過往研究顯示,具備分段線性激活函數的神經網路會將輸入空間劃分為許多凸區域,數學上稱為多面體,每個多面體都與一個線性函數相關聯。因此,神經網路本質上是一個在多面體上的分段線性函數。基於此特性,許多重要的理論進展和實證發現的核心思想是將神經網路的研究轉化為對多面體的研究。然而,現有研究僅停留在計算多面體數量的層面,缺乏對 ReLU 網路的完整刻畫。
研究動機
由於每個多面體由一組超平面所包圍,而每個超平面都與一個神經元相關聯,因此多面體的面數可能會有所不同。現有的「計數」研究並沒有考慮到多面體之間的差異。因此,本研究旨在探討如何超越計數來升級多面體的表徵,以捕捉神經網路的更完整圖像。
研究方法
為了更全面地描述 ReLU 網路,本研究提出進一步研究多面體的形狀,並使用多面體的面數來衡量其形狀的複雜性。研究首先構建了在平均面數或最大面數意義上將空間劃分為複雜多面體的 ReLU 網路。接著,通過分析多面體包含的面數,研究人員根據經驗觀察到,在初始化和梯度下降訓練後,ReLU 網路形成的線性區域比最壞情況簡單得多。這種現象在不同的初始化方法、網路深度、外接框大小和偏差下都得到了驗證。此外,研究還展示了在訓練過程中,儘管線性區域的數量增加,但線性區域仍保持其簡單性。最後,研究不僅針對低維輸入進行了實驗,還通過蒙特卡羅模擬將其擴展到高維輸入。
研究結果
研究結果顯示,深度 ReLU 網路在初始化和梯度下降訓練後,其形成的多面體結構比預期中簡單許多。這種有趣的發現是一種新的內在偏差,它表明深度網路傾向於學習一個由簡單多面體組成的函數。
研究結論
本研究通過分析多面體的面數,揭示了深度 ReLU 網路的一個重要特性:它們傾向於形成簡單的多面體。這一發現對於理解深度學習的泛化能力和隱式偏差具有重要意義。