本文提出了一種新的工具,稱為持久性匹配圖,用於評估子集相對於完整數據集的拓撲代表性。具體來說:
定義了持久性匹配圖,這是一個拓撲不變量,結合嵌入和持久性齊次來描述子集與完整數據集之間的關係。
提供了一種使用最小生成樹高效計算0維持久性匹配圖的算法。
證明了持久性匹配圖可用於估計子集與完整數據集之間的Hausdorff距離上下界。
展示了如何利用持久性匹配圖來解釋監督學習模型的性能,特別是當訓練集是完整數據集的子集時。
通過兩個實際案例,展示了該工具在分析數據質量和解釋模型性能方面的應用。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询