本論文では、Pawlakの粗い集合理論を一般化し、数値データに適用する手法を提案している。従来の粗い位相理論は、属性値が「はい/いいえ」や「高/普通/低」といった離散値の場合に適用されていたが、ほとんどの実データは数値データであるため、これを数値データに拡張する必要がある。
提案手法では、属性の標準偏差を用いて数値データを関連データに変換し、その上で粗い位相と核を定義する。具体的には、2つのオブジェクトの属性値の差が標準偏差以内であれば同等とみなす。この手法により、大規模な数値データに対しても効率的に属性削減ができる。
また、属性の重要度を測る指標を定義し、機械学習アルゴリズムの精度比較を行っている。その結果、提案手法で選択した属性(核)を使う方が、全属性を使うよりも精度が高いことが示された。
最後に、提案手法のアルゴリズムとPythonコードも提供されている。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Uğur... lúc arxiv.org 09-23-2024
https://arxiv.org/pdf/2206.05776.pdfYêu cầu sâu hơn