本研究では、教師なし木アンサンブルの構造を利用して特徴グラフを構築し、特徴の重要性を評価する手法を提案した。
特徴グラフの構築では、4つの異なる基準に基づいて枝の重みを定義した。これにより、特徴の中心性がクラスタリングタスクにおける重要性を反映し、枝の重みが特徴ペアの識別力を表すことを示した。
さらに、クラスタ固有の特徴グラフを構築する手法を提案した。これにより、クラスタ固有の特徴、関連特徴、無関係特徴を区別できることを確認した。
提案した2つの特徴選択手法(ブルートフォース法とグリーディー法)を評価したところ、両手法とも関連特徴を優先的に選択し、関連特徴を選び終えた後に無関係特徴の選択が始まることが分かった。特に、枝の重みの平均値の変化から、最適な特徴数を推定できることが示された。
冗長な特徴を含む合成データセットでは、グラフマイニング手法が特徴組み合わせの識別力を捉えられることが分かった。一方、単純な特徴重要度では識別力の違いを捉えられないことが確認された。
ベンチマークデータセットでの評価では、提案手法によるクラスタリング性能が、教師あり特徴重要度に基づく手法と同等以上であることが示された。特に大規模なデータセットでの性能改善が顕著であった。
以上より、提案手法は教師なし木アンサンブルの解釈性を高め、特に疾患サブタイピングなどの生物医学応用において有用であることが示された。
To Another Language
from source content
arxiv.org
Дополнительные вопросы