Core Concepts
PULSCAR와 PULSNAR 알고리즘은 SCAR 및 SNAR 데이터에서 레이블 없는 예제 중 긍정 예제의 비율을 효과적으로 추정할 수 있다.
Abstract
이 논문은 SCAR(선택 완전 무작위) 및 SNAR(선택 무작위 아님) 데이터에서 긍정 예제와 레이블 없는 예제의 비율을 추정하기 위한 두 가지 새로운 PU 학습 알고리즘을 제안한다.
PULSCAR 알고리즘:
긍정 및 레이블 없는 예제의 ML 예측 확률 분포를 베타 커널 밀도 추정을 사용하여 추정한다.
이를 통해 긍정 예제 비율 α를 효과적으로 추정할 수 있다.
PULSNAR 알고리즘:
SNAR 데이터에 적용되며, 긍정 예제를 클러스터링하여 각 클러스터에 대해 PULSCAR를 적용한다.
각 클러스터의 α 추정치를 합하여 전체 α를 계산한다.
SNAR 데이터에서 PULSCAR보다 우수한 성능을 보인다.
실험 결과:
합성 데이터와 실제 벤치마크 데이터에서 PULSCAR와 PULSNAR가 기존 방법들보다 우수한 α 추정 성능을 보였다.
추정된 α를 활용하여 분류 성능과 확률 보정 측면에서도 개선이 있었다.
Stats
긍정 예제 비율이 1%인 경우, PULSNAR의 α 추정치는 1.6%로 실제 값에 가깝다.
긍정 예제 비율이 50%인 경우, PULSCAR의 α 추정치는 49.8%로 실제 값에 매우 가깝다.
Quotes
"SCAR 가정은 실제 응용 분야에서 자주 성립하지 않는다. 예를 들어 의료 분야에서는 심각한 사례가 더 진단될 가능성이 높다."
"PULSNAR는 SNAR 데이터에서 PULSCAR보다 우수한 성능을 보인다."