이 논문은 문서 집합 확장(Document Set Expansion, DSE) 문제에 대해 기존 긍정-비표지(Positive-Unlabeled, PU) 학습 방법의 한계를 지적하고, 이를 해결하기 위한 새로운 PU 학습 프레임워크를 제안한다.
DSE 문제는 사용자가 관심 있는 문서 집합(seed documents)을 가지고 있을 때, 이와 유사한 문서를 대규모 문서 집합에서 찾는 문제이다. 기존 연구에서는 PU 학습을 DSE 문제에 적용하는 방법을 제안했지만, 이 방법들은 긍정 데이터의 비율(class prior)을 알고 있다는 비현실적인 가정을 필요로 한다.
이 논문에서는 이러한 한계를 극복하기 위해 밀도 추정이 어려운 모델(intractable model)을 활용한 새로운 PU 학습 프레임워크(puDE)를 제안한다. puDE는 긍정 데이터의 분포와 전체 데이터의 분포를 각각 추정하여 이를 활용해 Bayesian 분류기를 학습한다. 이 방법은 긍정 데이터의 비율을 알지 않아도 된다는 장점이 있다.
실험 결과, puDE 방법은 기존 PU 학습 방법과 BM25 등의 정보 검색 기법보다 우수한 성능을 보였다. 특히 긍정 데이터가 적은 경우에도 안정적으로 좋은 성능을 보였다. 이는 puDE가 DSE 문제에 효과적인 솔루션이 될 수 있음을 보여준다.
To Another Language
from source content
arxiv.org
Djupare frågor