核心概念
高次元データに対する二標本検定の問題を解決するため、射影ワッサーシュタイン距離を提案する。この距離は高次元空間におけるワッサーシュタイン距離の欠点を克服し、効率的な二標本検定を可能にする。
要約
本論文では、高次元データに対する二標本検定の問題に取り組んでいる。
まず、一般的な積分確率計量(IPM)に基づく二標本検定の有限標本収束性を議論している。IPMは二標本検定の基礎となる指標であり、その収束性能は関数空間の選択に依存する。
次に、射影ワッサーシュタイン距離を提案する。この距離は高次元空間におけるワッサーシュタイン距離の欠点を克服するため、最適な線形射影を見つけることで距離を最大化する。理論的な解析から、この距離の有限標本収束性は次元の影響を受けにくいことが示される。
最後に、提案手法の数値実験を行い、既存手法と比較して高次元データに対する二標本検定の性能が優れていることを確認している。特に、提案手法は視覚的な解釈も可能であり、二標本の違いを明確に示すことができる。
統計
高次元データに対するワッサーシュタイン距離の収束速度は遅く、O(n^(-1/d))の速度しか得られない。
提案手法の射影ワッサーシュタイン距離の収束速度は、O(n^(-1/(k∨2)))となり、次元の影響を受けにくい。
引用
"高次元空間におけるワッサーシュタイン距離は計算が困難であり、その収束速度も遅い。"
"提案する射影ワッサーシュタイン距離は、高次元データに対する二標本検定の性能を向上させることができる。"