核心概念
本研究全面評估了三種常用的處理類別不平衡的策略:合成少數類過採樣技術(SMOTE)、類別權重調整和決策閾值校準。這些方法在各種機器學習模型和數據集上都優於基線情況,其中決策閾值校準表現最為穩定和有效。
摘要
本研究全面評估了三種常用的處理類別不平衡的策略:合成少數類過採樣技術(SMOTE)、類別權重調整和決策閾值校準。
實驗設計:
- 使用15種不同的機器學習模型,包括樹模型、提升算法、神經網絡等
- 選取30個不同領域的二元分類數據集,樣本量500-20,000,少數類佔比1%-15%
- 採用5折交叉驗證,共進行9,000次實驗
結果分析:
- 整體比較:
- 決策閾值校準的F1分數最高(0.617 ± 0.005),優於SMOTE(0.605 ± 0.006)和類別權重(0.594 ± 0.006)
- 決策閾值校準在少數類檢測指標(F2分數、召回率)上表現最佳
- SMOTE雖然提高了少數類檢測,但概率校準效果最差,體現在較高的對數損失和布里爾得分
- 模型級別分析:
- 決策閾值校準在10/15個模型上表現最佳
- SMOTE和類別權重在部分模型上也優於基線
- 數據集級別分析:
- 不同數據集上最佳方法存在較大差異,沒有一種方法在所有數據集上都表現最佳
- 這突出了針對特定問題測試多種方法的重要性
統計分析顯示,三種處理類別不平衡的方法均顯著優於基線,決策閾值校準和SMOTE的差異不顯著。
總的來說,決策閾值校準是一種穩健有效的處理類別不平衡的方法,可作為從業者的首選。但由於不同數據集的最佳方法存在差異,仍需要針對具體問題進行實驗比較。
統計資料
在類別不平衡的二元分類任務中,基線情況下的F1分數為0.556 ± 0.006。
決策閾值校準的F1分數為0.617 ± 0.005,顯著優於基線。
SMOTE的F1分數為0.605 ± 0.006,也優於基線。
類別權重調整的F1分數為0.594 ± 0.006,優於基線但不如決策閾值校準。