Core Concepts
부분적으로 레이블이 지정된 데이터(Positive Unlabeled, PU)에서 각 unlabeled 데이터에 soft label을 부여하여 분류기를 학습하는 방법을 제안한다. 이를 통해 기존 PU 학습 방법보다 향상된 성능을 달성할 수 있다.
Abstract
이 논문은 부분적으로 레이블이 지정된 데이터(Positive Unlabeled, PU)에서 분류기를 학습하는 새로운 방법을 제안한다. 기존 PU 학습 방법은 모든 unlabeled 데이터를 동일하게 취급하지만, 실제로는 일부 unlabeled 데이터가 positive일 가능성이 더 높다는 사실을 활용할 수 있다.
논문에서는 이를 위해 soft label PU 학습 방법을 제안한다. 이 방법은 unlabeled 데이터에 soft label(0과 1 사이의 값)을 부여하여, 각 데이터가 positive일 확률을 나타낸다. 이를 통해 기존 PU 학습 방법보다 향상된 분류 성능을 달성할 수 있다.
논문의 주요 내용은 다음과 같다:
soft label PU 학습을 위한 새로운 평가 지표(TPRSPU, FPRSPU, AUCSPU)를 정의하고, 이 지표들이 실제 지표(TPR, FPR, AUC)와 어떤 관계가 있는지 분석한다.
soft label PU 학습을 위한 최적화 방법을 제안한다.
공개 데이터셋과 Tencent 게임의 anti-cheat 서비스 데이터에 대한 실험을 통해 제안 방법의 효과를 검증한다.
Stats
부분적으로 레이블이 지정된 데이터에서 soft label을 활용하면 기존 PU 학습 방법보다 AUC가 0.721에서 0.728로 향상되었다.
Tencent 게임의 anti-cheat 서비스에서 soft label PU 학습 방법을 적용하면 surrender ratio가 1.84%에서 2.66%로 증가하고, pass ratio가 53.3%에서 19.7%로 감소하였다.
Quotes
"부분적으로 레이블이 지정된 데이터(Positive Unlabeled, PU)에서 각 unlabeled 데이터에 soft label을 부여하여 분류기를 학습하는 방법을 제안한다."
"기존 PU 학습 방법은 모든 unlabeled 데이터를 동일하게 취급하지만, 실제로는 일부 unlabeled 데이터가 positive일 가능성이 더 높다는 사실을 활용할 수 있다."