Keskeiset käsitteet
가우시안 혼합 모델에서 불확실한 레이블링을 가진 준지도 분류 문제의 베이즈 위험을 계산하고, 이를 통해 기존 알고리즘의 성능을 이해한다.
Tiivistelmä
이 논문은 가우시안 혼합 모델에서 불확실한 레이블링을 가진 준지도 분류 문제를 다룹니다. 주요 내용은 다음과 같습니다:
불확실한 레이블링을 가진 데이터에 대한 베이즈 위험을 계산합니다. 이는 기존 연구에서 확실한 레이블링을 가정한 것과 다릅니다.
계산된 베이즈 위험과 기존 알고리즘의 성능을 비교하여, 알고리즘의 행동을 이해합니다.
베이즈 위험 계산 결과를 통해 준지도 학습에서 레이블링의 불확실성이 미치는 영향을 분석합니다.
준지도 학습에서 레이블링의 불확실성이 증가할수록 더 많은 레이블링된 데이터가 필요하다는 것을 보여줍니다.
준지도 학습의 유용성은 문제의 난이도(베이즈 위험)에 따라 달라진다는 것을 확인합니다.
Tilastot
문제의 신호 대 잡음 비율(SNR)은 λ = 1/4∥μ1 - μ2∥2 로 정의된다.
데이터 차원 p와 전체 데이터 수 n의 비율 p/n은 c로 수렴한다.
레이블링된 데이터 수 nℓ와 전체 데이터 수 n의 비율 nℓ/n은 η로 수렴한다.
Lainaukset
"Semi-supervised learning (SSL) is an extension of the conventional supervised learning paradigm by augmenting the (labeled) training data set with unlabeled data, which then "unsupervisably" serve to boost learning performance."
"Advances in Random Matrix Theory (RMT) has been exploited to design better methods, by proposing fundamental corrections of known algorithms [6], and even extend them, for instance by considering uncertain labeling [7]."
"Simultaneously, another field of research has focused on analysing Gaussian mixtures model with statistical physics. Such analysis brings an optimal bound for a given problem, meaning that any possible algorithm cannot reach a better performance [8], [9]."