Keskeiset käsitteet
少量のラベル付きデータと大量の非ラベル付きデータを活用して、階層的マルチラベル分類の性能を向上させる。
Tiivistelmä
本論文では、半教師あり階層的マルチラベル分類器:局所情報に基づく(SSHMC-BLI)を提案する。このメソッドは、滑らかさ仮定に基づいており、ラベル付きの近傍インスタンスのラベルパスを利用して、非ラベル付きインスタンスの擬似ラベルを生成する。ただし、非ラベル付きインスタンスがラベル付きの近傍と類似しているかどうかも考慮する。
提案手法は、任意の有向非循環グラフ(DAG)型階層と、複数のラベルパスに関連付けられたインスタンスに対応できる。
実験では、Gene Ontology データセットを用いて評価を行った。ラベル付きデータのみを使った教師あり分類器と比較して、提案手法は統計的に有意に優れた性能を示した。特に、ラベル付きデータが少ない場合に大きな性能向上が見られた。
Tilastot
ラベル付きデータが少ない場合、提案手法は教師あり分類器よりも優れた性能を示す。
ラベル付きデータが増えるにつれ、提案手法の性能は教師あり分類器に近づいていく。
Lainaukset
"ラベル付きデータの不足は、教師あり分類の一般的な問題である。"
"階層的分類では、このラベル付きデータの不足がより顕著になる。なぜなら、ノードのデータが子ノードに分散されるため、最深部のノードに関連付けられるインスタンスが少なくなるからである。"