核心概念
불균형 분류 문제에서 기존의 성능 지표들은 소수 클래스를 무시하는 분류기를 선호하지만, 제안된 강건한 성능 지표는 소수 클래스에 대한 높은 검출률을 유지할 수 있다.
要約
이 논문은 불균형 분류 문제에서 기존의 성능 지표들이 가지는 문제점을 지적하고, 이를 해결하기 위한 강건한 성능 지표를 제안한다.
먼저, 기존의 성능 지표들인 F-score, Jaccard 유사도 계수, Matthews 상관 계수(MCC)가 소수 클래스의 비율이 0에 가까워질 때 Bayes 분류기의 진양성률(TPR)이 0으로 수렴한다는 것을 보였다. 이는 이러한 지표들이 소수 클래스를 무시하는 분류기를 선호한다는 것을 의미한다.
이를 해결하기 위해 저자들은 F-score와 MCC의 강건한 변형을 제안했다. 이 변형된 지표들은 강한 불균형 상황에서도 TPR이 0에서 멀어지도록 한다. 시뮬레이션과 신용 부도 데이터 세트에 적용하여 제안된 지표의 성능을 확인했다.
또한 ROC 곡선과 정밀도-재현율 곡선과의 관계를 논의하고, 이들을 성능 지표와 함께 사용하는 것에 대한 권장 사항을 제시했다.
統計
소수 클래스의 비율 π가 감소할수록 기존 지표들의 최적 임계값 δ*이 매우 커지거나 무한대로 발산한다.
제안된 강건한 지표들의 최적 임계값 δ*은 π가 감소해도 유한한 값으로 유지된다.
引用
"기존의 성능 지표들은 소수 클래스를 무시하는 분류기를 선호한다."
"제안된 강건한 지표들은 강한 불균형 상황에서도 높은 진양성률을 유지할 수 있다."