Neyra, J., Siramshetty, V. B., & Ashqar, H. I. (n.d.). The effect of different feature selection methods on models created with XGBoost. University of Maryland Baltimore County.
本研究は、機械学習アルゴリズムXGBoostを用いて作成されたモデルにおいて、異なる特徴選択手法が及ぼす影響を調査することを目的とする。
本研究では、多数の特徴量を持つTox21データチャレンジのデータセットを用い、ランダムフォレスト、ANOVA、カイ二乗という3つの特徴選択手法を適用した。各手法で選択された特徴量を用いてXGBoostモデルを構築し、その予測精度をROC AUCスコアを用いて評価した。
3つの特徴選択手法を用いた場合でも、用いない場合でも、モデルの予測精度に統計的に有意な差は見られなかった。これは、XGBoostの正則化手法がデータのノイズを効果的に抑制しているためと考えられる。
XGBoostアルゴリズムを用いたモデル構築において、特徴選択は予測精度向上に必須ではない可能性がある。ただし、計算量削減の観点からは、特徴選択は依然として有効である。
本研究は、XGBoostを用いたモデル構築において、特徴選択の必要性について新たな知見を提供するものである。
本研究は、二値分類タスクのみに焦点を当てている。回帰や多クラス分類タスクにおける特徴選択の影響については、今後の研究が必要である。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問