이 논문은 데이터 품질이 기계 학습 모델의 학습, 일반화 및 성능에 중요하다는 점을 강조한다. 저자들은 토폴로지 데이터 분석 기술을 사용하여 데이터 하위 집합의 품질을 측정하는 방법을 제안한다.
구체적으로, 저자들은 지속성 매칭 다이어그램이라는 토폴로지 불변량을 정의한다. 이는 임베딩과 지속성 호모로지를 결합하여 만든 것이다. 저자들은 최소 신장 트리를 사용하여 이를 효율적으로 계산하는 알고리즘을 제공한다.
지속성 매칭 다이어그램은 하위 집합이 전체 데이터셋의 클러스터를 얼마나 잘 포착하는지 이해하는 데 사용된다. 또한 하위 집합과 전체 데이터셋 간의 하우스도르프 거리 범위를 추정하는 데 사용된다.
저자들은 두 가지 실험을 통해 제안된 접근법의 유용성을 보여준다. 주택 데이터셋과 콩 데이터셋에 대해 랜덤 하위 집합을 선택하고 기계 학습 모델을 학습 및 평가한다. 그리고 지속성 매칭 다이어그램을 사용하여 각 클래스에 대한 하위 집합의 대표성을 분석한다. 이를 통해 모델 성능 저하의 원인을 설명할 수 있다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究