核心概念
本論文では、一部の正例のみがラベル付けされている問題(PU学習)に対して、未ラベルサンプルに対して事前知識に基づいて偽ラベルを付与する手法を提案する。これにより、従来のPU学習手法では発見できなかった隠れた正例を発見できるようになる。
摘要
本論文では、正例と未ラベルデータからなるPU学習問題に対して、未ラベルサンプルに事前知識に基づいて偽ラベルを付与する「偽ラベルPU学習」を提案している。
まず、従来のPU学習では全ての未ラベルサンプルを等しく扱うが、実際には事前知識から一部の未ラベルサンプルがより正例らしいことがわかる場合がある。そこで本手法では、そのような事前知識を活用して未ラベルサンプルに偽ラベルを付与する。
次に、真のTPR、FPR、AUCが未知の状況下で、これらの指標の代替指標となるTPRSPU、FPRSPU、AUCSPUを定義する。これらの指標は、偽ラベルを活用することで、真の指標の最適化につながることを理論的に示す。
最後に、これらの代替指標を最適化する学習手法を提案し、公開データセットおよびTencent Gamesのチーター検知タスクでの実験結果を示す。実験結果より、提案手法が従来手法に比べて優れた性能を示すことが確認された。
統計資料
正例の確率が高いほど、偽ラベルの値も高くなる。
偽ラベルPU学習では、真のTPR、FPR、AUCを直接推定できないが、TPRSPUとFPRSPUの最適化は、真のTPRとFPRの最適化につながる。
AUCSPUの上限は1/2 + (∫_0^1 F_S(u)(1-F_S(u))du) / (2∫_0^1 F_S(u)du ∫_0^1 (1-F_S(u))du)である。
引述
"PU学習では、正例と未ラベルデータからなる分類問題を扱う。"
"従来のPU学習手法では全ての未ラベルサンプルを等しく扱うが、実際には事前知識から一部の未ラベルサンプルがより正例らしいことがわかる場合がある。"
"本論文では、そのような事前知識を活用して未ラベルサンプルに偽ラベルを付与する偽ラベルPU学習を提案する。"