Core Concepts
本研究では、バングラデシュの乳がん患者データを用いて、決定木、ランダムフォレスト、XGBoost、ナイーブベイズ、ロジスティック回帰の5つの教師あり機械学習アルゴリズムを評価し、XGBoostが最高の97%の精度を達成したことを示している。さらに、XGBoostモデルに対してSHAP分析を行い、各特徴量が予測結果に与える影響を解釈している。
Abstract
本研究は、バングラデシュの乳がん患者データを用いて、5つの教師あり機械学習アルゴリズムの性能を評価している。
データの前処理として、欠損値の処理、特徴量のスケーリング、カテゴリカル変数のエンコーディングを行った。その後、データを訓練セットと検証セットに分割し、各アルゴリズムのハイパーパラメータチューニングを行った。
評価指標として、精度、再現率、適合率、F1スコアを用いた。その結果、XGBoostが最高の97%の精度を達成し、他のアルゴリズムを上回る性能を示した。また、ランダムフォレストも96%の精度と良好な結果を得た。
さらに、XGBoostモデルに対してSHAP分析を行い、各特徴量が予測結果に与える影響を解釈した。平均周長が最も重要な特徴量であり、平均半径が低いほど乳がんの可能性が高いことが明らかになった。
最後に、10分割交差検証を行い、各アルゴリズムの平均精度を算出した。XGBoostが97.4%と最も高い平均精度を示し、ランダムフォレストが95.6%、ナイーブベイズが92.6%、ロジスティック回帰が92.7%であった。
本研究は、バングラデシュの乳がん患者データに対して、高精度な予測モデルを構築し、各特徴量の影響を解釈することで、乳がんの早期発見と適切な治療につなげることができる可能性を示している。
Stats
平均周長が大きいほど乳がんの可能性が高い。
平均半径が小さいほど乳がんの可能性が高い。