核心概念
의료 데이터셋에서 다양한 누락값 보완 기법의 성능을 비교하고, 특성 선택 전후 보완 기법 적용의 효과를 분석하였다.
要約
이 연구는 의료 데이터셋에서 누락값 처리를 위한 7가지 보완 기법의 성능을 비교하고, 특성 선택 전후 보완 기법 적용의 효과를 분석하였다.
데이터셋:
- 유방암, 당뇨, 심장질환 데이터셋을 사용하였다.
- 각 데이터셋에 10%, 15%, 20%, 25%의 누락값을 임의로 도입하였다.
보완 기법:
- 평균 대체, 중앙값 대체, 마지막 관측값 대체, k-최근접 이웃 대체, 보간법 대체, Missforest 대체, 다중 대체(MICE)를 적용하였다.
성능 평가:
- RMSE와 MAE를 사용하여 보완 기법의 성능을 비교하였다.
- 특성 선택 전후 보완 기법 적용의 효과는 정확도, 정밀도, 재현율, F1-score를 통해 평가하였다.
결과:
- Missforest 기법이 가장 우수한 성능을 보였고, MICE 기법이 그 다음으로 좋은 성능을 나타냈다.
- 특성 선택 전 보완 기법을 적용하는 것이 더 나은 성능을 보였다.
統計
유방암 데이터셋에서 Missforest 기법의 RMSE는 10% 누락값에서 0.0524, 25% 누락값에서 0.0642이다.
당뇨 데이터셋에서 Missforest 기법의 MAE는 10% 누락값에서 0.0855, 25% 누락값에서 0.1032이다.
심장질환 데이터셋에서 MICE 기법의 RMSE는 10% 누락값에서 0.1621, 25% 누락값에서 0.1846이다.
引用
"Missforest 알고리즘이 가장 낮은 오차를 보여 가장 우수한 성능을 나타냈다."
"특성 선택 전 보완 기법을 적용하는 것이 더 나은 성능을 보였다."
"MICE 기법이 Missforest 다음으로 좋은 성능을 나타냈다."