Kernekoncepter
준지도 학습을 통해 레이블이 부족한 데이터에서도 우수한 성능의 계층적 다중 레이블 분류기를 학습할 수 있다.
Resumé
이 논문에서는 준지도 계층적 다중 레이블 분류기 SSHMC-BLI를 제안한다. SSHMC-BLI는 계층이 DAG 형태이고 인스턴스가 다중 경로의 레이블에 연결될 수 있는 가장 어려운 계층적 분류 문제에 적용할 수 있다.
SSHMC-BLI는 레이블이 있는 인스턴스의 이웃을 활용하여 레이블이 없는 인스턴스에 의사 레이블을 부여한다. 이때 레이블이 없는 인스턴스가 이웃과 유사한지 여부를 고려한다. 이렇게 생성된 레이블이 있는 데이터와 의사 레이블이 있는 데이터를 사용하여 계층적 다중 레이블 분류기를 학습한다.
실험 결과, SSHMC-BLI 방법은 레이블이 있는 데이터만으로 학습한 계층적 분류기보다 우수한 성능을 보였다. 특히 레이블이 부족한 경우 성능 향상이 두드러졌다. 통계적 분석 결과 SSHMC-BLI 방법이 표준 방법과 지도 학습 방법에 비해 유의미하게 우수한 성능을 보였다.
Statistik
레이블이 있는 데이터와 레이블이 없는 데이터의 비율이 10:90일 때 평균 정밀도가 0.4817로 가장 높았다.
레이블이 있는 데이터와 레이블이 없는 데이터의 비율이 90:10일 때 평균 정밀도가 0.4492로 가장 낮았다.
Citater
"레이블이 부족한 데이터는 계층적 분류에서 더욱 두드러지는 문제이다. 왜냐하면 노드의 데이터가 자식 노드들 사이에 분산되어 가장 깊은 노드에는 적은 수의 인스턴스만 연결되기 때문이다."
"준지도 학습 방법을 사용하면 레이블이 있는 데이터와 레이블이 없는 데이터를 모두 활용하여 더 나은 성능의 계층적 분류기를 학습할 수 있다."