Core Concepts
分布間の類似性を測るための新しいメトリックを提案し、アウトライアーや標本ばらつきに対してロバストであることを示した。
Abstract
本論文では、分布間の類似性を測るための新しいメトリックを提案している。このメトリックは、部分 $p$-ワッサーシュタイン距離に基づいており、以下の特徴を持つ:
通常のp-ワッサーシュタイン距離と同様に、分布間の微細な幾何学的差異を捉えることができる。
アウトライアーの影響を受けにくく、ロバストである。
標本ばらつきに対する収束速度が、p-ワッサーシュタイン距離よりも速い。
提案するメトリックは、パラメータ $p$ と $k$ によって定義される $(p, k)$-RPW 距離と呼ばれる。この距離は、全変動距離とp-ワッサーシュタイン距離の間を補間するものである。
具体的には、以下のような性質が示されている:
$(p, k)$-RPW 距離は、メトリック性を満たす。
アウトライアーの影響は、その質量の大きさに比例して変化する。
2次元空間での経験的 $(p, k)$-RPW 距離の収束速度は、p-ワッサーシュタイン距離よりも速い。
$k = 0$ のとき、$(p, k)$-RPW 距離は全変動距離と一致する。
$k \to \infty$ のとき、$(p, k)$-RPW 距離は $\frac{1}{k}W_p$ に近づく。
また、提案手法の有効性を示すため、ノイズの多い画像データセットでの画像検索実験を行い、提案手法が既存手法よりも優れた性能を示すことを確認している。
Stats
分布 $\mu$ と $\nu$ の間の全変動距離は $|\mu - \nu|_{\mathrm{TV}}$ で表される。
分布 $\mu$ と $\nu$ の間のp-ワッサーシュタイン距離は $W_p(\mu, \nu)$ で表される。
分布 $\mu$ と $\nu$ の間の $(p, k)$-RPW 距離は $\Pi_{p, k}(\mu, \nu)$ で表される。
Quotes
"The 2-Wasserstein distance is sensitive to minor geometric differences between distributions, making it a very powerful dissimilarity metric."
"However, due to this sensitivity, a small outlier mass can also cause a significant increase in the 2-Wasserstein distance between two similar distributions."
"Similarly, sampling discrepancy can cause the empirical 2-Wasserstein distance on n samples in R2 to converge to the true distance at a rate of n−1/4, which is significantly slower than the rate of n−1/2 for 1-Wasserstein distance."