核心概念
데이터 품질 향상을 위해 도메인 지식 없이도 결과에 대한 설명과 해석이 가능한 포괄적인 프레임워크를 제안한다.
摘要
이 논문은 데이터 품질 향상을 위한 자동화된 설명 가능한 프레임워크를 제안한다. 이 프레임워크는 도메인 지식 없이도 데이터 세트의 결측값, 중복, 통계적 이상치, 철자 오류, 논리적 오류를 식별하고 수정할 수 있다.
프레임워크는 두 단계로 구성된다:
- 사전 품질 향상 단계:
- 기본 키 식별
- 각 유형의 오류 처리를 위한 데이터 필드 매핑
- 품질 향상 단계:
- 중복 제거
- 결측값 처리
- 통계적 이상치 식별 및 수정
- 철자 오류 식별 및 수정
- 논리적 오류 식별 및 수정
각 단계에서는 결과에 대한 설명과 해석을 제공하여 사용자가 신뢰할 수 있도록 한다. 이 프레임워크를 공개 데이터 세트에 적용하여 그 효과를 입증하고, 통계적 이상치와 논리적 오류 처리에 대한 과제를 논의한다.
統計資料
결측값이 161개 존재한다.
200개의 이상치가 존재한다.
100개의 철자 오류(대문자 50개, 소문자 50개)가 존재한다.
25개의 잘못된 카테고리, 100개의 부적절한 기계 정보, 200개의 부적절한 구동 시스템, 100개의 부적절한 제품 그룹 설명, 25개의 연식 오류가 존재한다.
引述
"데이터 품질 향상을 위해 도메인 지식 없이도 결과에 대한 설명과 해석이 가능한 포괄적인 프레임워크를 제안한다."
"이 프레임워크는 결측값, 중복, 통계적 이상치, 철자 오류, 논리적 오류를 식별하고 수정할 수 있다."
"각 단계에서는 결과에 대한 설명과 해석을 제공하여 사용자가 신뢰할 수 있도록 한다."