Core Concepts
カテゴリカルデータの類似性を表現する新しい可視化手法「カテゴリカルデータマップ」を提案する。これにより、カテゴリカルデータの探索的分析が可能になる。
Abstract
本研究では、カテゴリカルデータの類似性に基づく新しい可視化手法「カテゴリカルデータマップ」を提案している。カテゴリカルデータは距離や順序の概念がないため、従来の可視化手法では限界があった。
提案手法では、カテゴリカルデータを部分集合として表現し、部分集合間の距離に基づいて2次元の散布図上に配置する。これにより、類似した部分集合が近接して表示され、クラスタリングや異常値の検出が可能になる。
さらに、属性の分布を背景に表示することで、属性がクラスタリングにどのように影響しているかを把握できる。また、属性の「断片性」を定量化する指標を提案し、属性の重要度を評価することができる。
提案手法は、Titanic データセットやMushroom データセットなどの大規模なカテゴリカルデータの分析に有効であることが示された。専門家による評価では、提案手法の有用性が確認された。
Stats
男性の死亡者が多数を占める
生存者の多くは女性と子供
客室クラスの違いが生存率に大きな影響を与えている
毒キノコの多くは不快な臭いがする
毒キノコの多くは茎の表面が絹のように滑らかである
Quotes
"男性の死亡者が多数を占める"
"生存者の多くは女性と子供"
"客室クラスの違いが生存率に大きな影響を与えている"
"毒キノコの多くは不快な臭いがする"
"毒キノコの多くは茎の表面が絹のように滑らかである"