本稿は、異なるタイプの変数(量的変数と質的変数)を含むデータセットにおける距離尺度、特に偏りのない距離尺度の構築について論じている。
データの可視化、クラスタリング、分類などのタスクにおいて、データ点間の距離や類似性を測定することは不可欠である。しかし、データセットが混合変数(量的変数と質的変数)で構成されている場合、変数の種類や尺度が異なるため、距離の測定が複雑になる。
本稿では、変数の測定単位や尺度に影響されない「偏りのない」混合変数距離を定義する。具体的には、以下の2つの特性を満たす距離尺度を提案する。
Gowerの距離など、混合変数距離を計算するための既存の方法は、特定の変数の種類や測定単位に偏っていることが知られている。例えば、Gowerの距離は、質的変数の影響を受けやすい。
本稿では、上記の2つの特性を満たす、偏りのない混合変数距離を構築するための一般的な式を提案する。この式では、各変数の距離を適切な重みで調整することで、変数の種類や尺度に依存しない距離尺度を実現する。
シミュレーション研究と実証を通して、提案する偏りのない混合変数距離が、従来の方法よりも客観的なデータ分析の出発点となり、より正確な結果を得られることを示す。
本稿で提案する偏りのない混合変数距離は、混合変数データの分析において、より公平で偏りのない結果を得るための有効な手段となる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問