核心概念
本文提出了一種通用的多元混合變數距離公式,用於構建無偏差混合變數距離,解決了現有混合變數距離計算中存在的偏差問題,確保了不同變數類型和測量單位對整體距離貢獻的公平性。
摘要
無偏差混合變數距離研究
這篇研究論文探討了在混合數據集中計算距離的挑戰,特別關注於如何確保不同變數類型對整體距離貢獻的公平性。
定義並解決混合變數距離計算中存在的偏差問題,特別是不同變數類型和測量單位對整體距離貢獻的不均衡問題。
提出一個通用的多元混合變數距離公式,用於構建無偏差的混合變數距離。
提出了兩個關鍵屬性:多元可加性和可比性。多元可加性要求多元距離是單變數距離的總和,而可比性則確保單變數對整體距離的貢獻是可比較的。
評估了幾種常見的數值和分類變數距離和縮放選項,例如標準差縮放、範圍縮放、魯棒範圍縮放和主成分縮放,以及匹配、Eskin、出現頻率、逆出現頻率和基於指標的變體。
提出了一個新的基於關聯的縮放方法,可以在多元可加性環境中使用。
通過模擬研究和經驗應用,展示了所提出的無偏差混合變數距離在探索性基於距離的數據分析中提供更客觀起點的優勢。