本文探討了隨機森林(RF)的獨特行為,即其訓練集擬合程度(R2_train)遠高於測試集表現(R2_test)。作者提出了一個新的解釋:將bootstrap聚合(bagging)和模型擾動(perturbation)視為隱式地對潛在的"真實"決策樹進行了修剪。
更廣泛地說,作者發現,隨機化的貪婪優化算法隱式地進行了最優提前停止。因此,讓RF過度擬合訓練數據是一種對抗自然噪聲水平選擇的有效策略。
此外,作者還介紹了Booging和MARSquake兩種新的集成算法,它們也繼承了RF的這一優勢特性。這些算法在模擬和真實數據集上的實驗表現與經過調優的對應算法相當,甚至更好。
作者的主要貢獻包括:1)揭示了RF獨特的R2_train和R2_test差距,標準解釋無法解釋這一現象;2)提出了隨機化貪婪優化算法隱式最優提前停止的新觀點;3)將這一觀點推廣到Boosting和MARS,並提出了新算法Booging和MARSquake。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы