핵심 개념
데이터 정제 작업 간 발생하는 충돌을 공식적인 논증 프레임워크를 통해 모델링하고 해결하여 투명성 있는 솔루션을 제공한다.
초록
이 논문은 협력적 데이터 정제 환경에서 발생하는 데이터 정제 작업 간 충돌을 해결하는 새로운 접근법을 제안한다. 저자들은 데이터 정제 작업을 논증으로 모델링하고, 이들 간 충돌을 논증 프레임워크로 표현한다. 이를 통해 논증 프레임워크의 고유한 의미론을 활용하여 받아들여야 할 작업, 거부되어야 할 작업, 그리고 여전히 모호한 작업을 자동으로 식별할 수 있다. 이러한 접근법은 데이터 정제 작업의 투명성과 재현성을 높일 수 있다.
구체적으로 다음과 같은 내용을 다룬다:
- 데이터 정제 작업을 논증으로 모델링하고, 작업 간 충돌을 공격 관계로 표현하는 방법
- 논증 프레임워크의 고유한 의미론(well-founded 의미론, stable 의미론)을 활용하여 충돌을 해결하고 투명한 솔루션을 도출하는 방법
- 사례 연구를 통해 제안 방법의 실용성을 보여주고, 향후 OpenRefine과 같은 도구와 통합하여 협력적 데이터 정제 작업을 지원할 계획
통계
데이터 정제 작업의 80%가 데이터 정제와 준비 작업에 소요된다.
데이터 정제 작업은 일반적으로 Excel, Python, R 등의 도구를 사용하거나 OpenRefine, Wrangler 등의 전문 도구를 활용한다.
인용구
"데이터 분석 결과의 신뢰성은 데이터 정제 워크플로우의 투명성과 재현성에 달려있다."
"협력적 데이터 정제 환경에서는 데이터 정제 작업 간 충돌이 자연스럽게 발생한다."