核心概念
本論文では、属性値に基づいて対象を分類することで、数値データに対する粗い位相と核を一般化する。数値データに対する核を見つける新しい手法について議論し、属性が核に含まれるかどうかを測る指標を提示する。この新しい核の発見手法は属性削減に使用される。8つの機械学習アルゴリズムを使って検証・比較を行う。また、データ分類における属性の重要度ランキングにこの手法を使う方法についても議論する。最後に、データを関連データに変換し、核を見つける
アルゴリズムとコードも提供する。
摘要
本論文では、Pawlakの粗い集合理論を一般化し、数値データに適用する手法を提案している。従来の粗い位相理論は、属性値が「はい/いいえ」や「高/普通/低」といった離散値の場合に適用されていたが、ほとんどの実データは数値データであるため、これを数値データに拡張する必要がある。
提案手法では、属性の標準偏差を用いて数値データを関連データに変換し、その上で粗い位相と核を定義する。具体的には、2つのオブジェクトの属性値の差が標準偏差以内であれば同等とみなす。この手法により、大規模な数値データに対しても効率的に属性削減ができる。
また、属性の重要度を測る指標を定義し、機械学習アルゴリズムの精度比較を行っている。その結果、提案手法で選択した属性(核)を使う方が、全属性を使うよりも精度が高いことが示された。
最後に、提案手法のアルゴリズムとPythonコードも提供されている。
統計資料
属性rの境界領域の変化率νr(X)が10以下の場合、その属性rは核に含まれないと見なせる
例1のデータセットでは、温度、ワート数、面積の3つの属性が核となった
例2のデータセットでは、コンパクト性、長さ、非対称係数、溝の長さの4つの属性が核となった
引述
"本論文では、Pawlakの粗い集合理論を一般化し、数値データに適用する手法を提案している。"
"提案手法では、属性の標準偏差を用いて数値データを関連データに変換し、その上で粗い位相と核を定義する。"
"属性の重要度を測る指標を定義し、機械学習アルゴリズムの精度比較を行っている。その結果、提案手法で選択した属性(核)を使う方が、全属性を使うよりも精度が高いことが示された。"