Główne pojęcia
不均衡分類問題では、一般的に使われているパフォーマンス指標であるF-スコア、ジャッカード類似係数、マシューズ相関係数は、少数クラスを無視する分類器を好む傾向がある。そのため、これらの指標に対して堅牢な修正版を提案する。
Streszczenie
本論文では、不均衡分類問題におけるパフォーマンス指標の問題点を指摘し、それを改善するための堅牢な修正版を提案している。
まず、一般的に使われているパフォーマンス指標であるF-スコア、ジャッカード類似係数、マシューズ相関係数(MCC)について分析を行った。これらの指標は、少数クラスの割合が小さくなると、ベイズ分類器のTrue Positive Rate(TPR)が0に収束してしまうことが分かった。つまり、これらの指標は不均衡な分類問題では少数クラスを無視する分類器を好む傾向がある。
そこで、TPRが小さな値に収束しないよう、F-スコアとMCCの堅牢な修正版を提案した。修正版では、パラメータを導入することで、少数クラスの割合が小さくなっても、TPRが一定の下限値を下回らないようにしている。
また、ROC曲線とprecision-recall曲線との関係についても議論した。ROC曲線は少数クラスの割合に依存しないが、precision-recall曲線は割合に依存するため、不均衡問題では後者の解釈が難しくなる。そのため、precision対1-precisionのプロットを推奨している。
最後に、信用デフォルト問題のデータセットを用いて、提案手法の有効性を示した。
Statystyki
少数クラスの割合πが小さくなると、一般的なパフォーマンス指標の最適閾値δ*が非常に大きくなる
提案した堅牢な修正版では、δ*の増加が抑えられ、少数クラスのTPRが一定の下限値を下回らない
Cytaty
"不均衡データでは、一般的に使われているパフォーマンス指標であるF-スコア、ジャッカード類似係数、マシューズ相関係数は、少数クラスを無視する分類器を好む傾向がある。"
"提案した堅牢な修正版では、パラメータを導入することで、少数クラスの割合が小さくなっても、TPRが一定の下限値を下回らないようにしている。"