Core Concepts
데이터 정제 작업 간 발생하는 충돌을 공식적인 논증 프레임워크를 통해 모델링하고 해결하여 투명성 있는 솔루션을 제공한다.
Abstract
이 논문은 협력적 데이터 정제 환경에서 발생하는 데이터 정제 작업 간 충돌을 해결하는 새로운 접근법을 제안한다. 저자들은 데이터 정제 작업을 논증으로 모델링하고, 이들 간 충돌을 논증 프레임워크로 표현한다. 이를 통해 논증 프레임워크의 고유한 의미론을 활용하여 받아들여야 할 작업, 거부되어야 할 작업, 그리고 여전히 모호한 작업을 자동으로 식별할 수 있다. 이러한 접근법은 데이터 정제 작업의 투명성과 재현성을 높일 수 있다.
구체적으로 다음과 같은 내용을 다룬다:
데이터 정제 작업을 논증으로 모델링하고, 작업 간 충돌을 공격 관계로 표현하는 방법
논증 프레임워크의 고유한 의미론(well-founded 의미론, stable 의미론)을 활용하여 충돌을 해결하고 투명한 솔루션을 도출하는 방법
사례 연구를 통해 제안 방법의 실용성을 보여주고, 향후 OpenRefine과 같은 도구와 통합하여 협력적 데이터 정제 작업을 지원할 계획
Stats
데이터 정제 작업의 80%가 데이터 정제와 준비 작업에 소요된다.
데이터 정제 작업은 일반적으로 Excel, Python, R 등의 도구를 사용하거나 OpenRefine, Wrangler 등의 전문 도구를 활용한다.
Quotes
"데이터 분석 결과의 신뢰성은 데이터 정제 워크플로우의 투명성과 재현성에 달려있다."
"협력적 데이터 정제 환경에서는 데이터 정제 작업 간 충돌이 자연스럽게 발생한다."