Основные понятия
회귀 모델을 활용하여 수치 응답 데이터에 존재하는 오류를 효과적으로 식별할 수 있는 방법을 제안한다. 이를 위해 데이터의 불확실성을 고려한 신뢰도 점수를 도입하고, 반복적인 데이터 필터링 절차를 통해 오류를 제거한다.
Аннотация
이 논문은 수치 응답 데이터에 존재할 수 있는 오류를 효과적으로 탐지하는 방법을 제안한다.
- 회귀 모델을 활용하여 데이터의 신뢰도 점수를 계산한다. 이때 모델의 예측 불확실성(epistemic uncertainty)과 데이터의 고유 불확실성(aleatoric uncertainty)을 고려한다.
- 신뢰도 점수가 낮은 데이터를 순차적으로 제거하는 필터링 절차를 제안한다. 이를 통해 오류가 제거된 데이터셋을 얻을 수 있다.
- 실제 오류가 포함된 5개의 회귀 데이터셋을 활용하여 제안 방법의 성능을 평가한다. 실험 결과, 제안 방법이 기존 접근법에 비해 오류 탐지 성능이 우수함을 확인했다.
Статистика
실제 데이터와 관측된 데이터 간의 차이가 크면, 관측된 데이터가 오류일 가능성이 높다.
데이터의 고유 불확실성이 크면, 관측된 데이터가 오류일 가능성이 높다.
데이터의 예측 불확실성이 크면, 관측된 데이터가 오류일 가능성이 높다.
Цитаты
"Noise plagues many numerical datasets, where the recorded values in the data may fail to match the true underlying values due to reasons including: erroneous sensors, data entry/processing mistakes, or imperfect human estimates."
"By accounting for various uncertainties, we introduced veracity scores that distinguish between genuine errors and natural data fluctuations, conditioned on the available covariate information in the dataset."