本論文では、回帰木の一貫性(pointwise consistency)を保証する条件を示し、回帰木のサイズと偏りおよび分散のトレードオフについて分析している。
まず、回帰木の分割基準(CART基準)を分析し、CART木が境界付近での分割を避ける傾向にあることを示す。これは、境界付近の推定が不整合になる可能性を示唆している。そこで、最小セル内観測数を下限付きで制限する実装を提案し、これが一貫性を保証することを証明する。
次に、一貫性を満たす回帰木とサブバギングの関係を分析する。サブバギングは偏りを変えずに分散を低減できることを示す。一方、過剰に大きな回帰木をサブバギングしても、適切なサイズの単一の回帰木に劣ることがある。
さらに、小さな回帰木(スタンプ)に対するサブバギングの効果を分析する。サブバギングは、単一の回帰木では0の重みだった観測値にも正の重みを割り当てることで、分散を低減することを示す。また、分割点付近の分散低減効果も確認する。
最後に、最適な回帰木のサイズと観測数の関係を示す。実践的には、単一の回帰木の最適サイズを見つけ、それに基づいてサブバギングのサイズを決めることができる。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Christos Rev... kl. arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01832.pdfDybere Forespørgsler