Die Studie untersucht die Effektivität von Subagging, einer Methode zum Aggregieren von Teilstichproben, bei Regressionsbäumen, einer beliebten nichtparametrischen Methode im maschinellen Lernen. Zunächst werden hinreichende Bedingungen für die punktweise Konsistenz von Bäumen angegeben. Es wird formalisiert, dass (i) der Bias von der Zellengröße abhängt, daher tendieren Bäume mit wenigen Splits dazu, verzerrt zu sein, und (ii) die Varianz von der Anzahl der Beobachtungen in den Zellen abhängt, daher tendieren Bäume mit vielen Splits dazu, eine große Varianz zu haben. Diese Aussagen für Bias und Varianz gelten nicht nur global im Kovariatenraum, sondern auch lokal unter bestimmten Einschränkungen.
Anschließend wird die Leistung von Subagging mit der von Einzelbäumen bei unterschiedlicher Anzahl von Splits verglichen. Es zeigt sich, dass (1) Subagging für eine gegebene Anzahl von Splits die Leistung eines einzelnen Baums verbessert, und (2) diese Verbesserung größer ist, wenn viele Splits verwendet werden. Allerdings kann (3) ein einzelner, optimal gewachsener Baum die Leistung von Subagging übertreffen, wenn die Größe seiner Teilbäume nicht optimal gewählt ist. Dieses letzte Ergebnis widerspricht der gängigen Praxis, große randomisierte Bäume zu wachsen, um den Bias zu eliminieren und dann durch Mittelung die Varianz zu reduzieren.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania