核心概念
隨機森林(RF)的獨特行為可以通過結合隨機化和貪婪優化來解釋。這種組合使得RF在完全過度擬合訓練數據的情況下仍能保持良好的測試集表現。這一性質不僅適用於RF,也適用於其他基於貪婪優化的集成模型,如Boosting和MARS。
摘要
本文探討了隨機森林(RF)的獨特行為,即其訓練集擬合程度(R2_train)遠高於測試集表現(R2_test)。作者提出了一個新的解釋:將bootstrap聚合(bagging)和模型擾動(perturbation)視為隱式地對潛在的"真實"決策樹進行了修剪。
更廣泛地說,作者發現,隨機化的貪婪優化算法隱式地進行了最優提前停止。因此,讓RF過度擬合訓練數據是一種對抗自然噪聲水平選擇的有效策略。
此外,作者還介紹了Booging和MARSquake兩種新的集成算法,它們也繼承了RF的這一優勢特性。這些算法在模擬和真實數據集上的實驗表現與經過調優的對應算法相當,甚至更好。
作者的主要貢獻包括:1)揭示了RF獨特的R2_train和R2_test差距,標準解釋無法解釋這一現象;2)提出了隨機化貪婪優化算法隱式最優提前停止的新觀點;3)將這一觀點推廣到Boosting和MARS,並提出了新算法Booging和MARSquake。
統計資料
隨機森林的訓練集R2遠高於測試集R2,這與常規統計智慧不符。
貪婪優化算法在進入過度擬合區域後,之前階段的預測結構不會被後續決策所削弱。
在只剩下噪聲可擬合的情況下,完全隨機森林的測試集預測等同於樣本均值,這是最優預測。
引述
"隨機森林(RF)的獨特行為可以通過結合隨機化和貪婪優化來解釋。"
"將bootstrap聚合(bagging)和模型擾動(perturbation)視為隱式地對潛在的'真實'決策樹進行了修剪。"
"隨機化的貪婪優化算法隱式地進行了最優提前停止。"