本論文では、データ品質が機械学習モデルの学習、一般化、パフォーマンスに重要であることを指摘している。特に、訓練データの選択が重要であり、訓練データのサブセットが元のデータセットを適切に表現していることが重要である。
そのため、本論文では、データサブセットの位相的品質を評価する手法を提案している。具体的には、パーシステンスマッチングダイアグラムと呼ばれる位相的不変量を定義し、これを用いて以下のことを行う:
パーシステンスマッチングダイアグラムは、データの埋め込みとパーシステントホモロジーを組み合わせることで得られる。また、最小全域木を用いて効率的に計算できる。
提案手法を、住宅データセットと乾燥豆データセットに適用し、その有効性を示している。特に、サブセットの品質が悪い場合、機械学習モデルの性能が低下することを確認している。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы