이 연구는 의료 데이터의 레코드 링크 문제를 해결하기 위해 Apache Spark 기반의 분산 처리 방식을 제안하였다. 의료 데이터는 다양한 출처에서 수집되어 파편화되어 있어 통합하기 어려운 문제가 있다. 레코드 링크는 이러한 데이터를 통합하고 정제하는 핵심 단계이다.
연구에서는 다음과 같은 과정을 거쳤다:
연구 결과, 회귀 모델이 SVM 모델보다 전반적으로 우수한 성능을 보였다. 특히 정밀도 측면에서 회귀 모델이 더 나은 결과를 보여, 의료 분야에서 중요한 false positive 최소화에 효과적이었다. 이를 통해 Apache Spark 기반의 분산 처리 방식이 대규모 의료 데이터의 레코드 링크 문제를 효과적으로 해결할 수 있음을 확인하였다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Mohammad Hey... kl. arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07939.pdfDybere Forespørgsler