Core Concepts
다병원 데이터를 활용하여 프라이버시를 보호하면서도 우수한 성능의 기계 학습 모델을 개발할 수 있다.
Abstract
이 연구에서는 DeCaPH (Decentralized, Collaborative, and Privacy-preserving Machine Learning for Multi-Hospital Data) 프레임워크를 제안한다. 이 프레임워크는 다음과 같은 주요 장점을 제공한다:
각 병원의 개인 데이터셋을 직접 공유하지 않고도 협력적으로 기계 학습 모델을 학습할 수 있다.
모델 학습 과정에서 공유되는 내용을 통해 환자 프라이버시가 유출될 수 있는 위험을 제한한다.
중앙 서버에 의존하지 않고 분산된 방식으로 모델 학습을 수행할 수 있다.
이 프레임워크를 이용하여 3가지 다양한 의료 관련 과제(환자 사망률 예측, 단일 세포 유전체 분류, 흉부 영상 병변 식별)에 대한 실험을 수행하였다. DeCaPH로 학습한 모델은 기존 협력 학습 프레임워크로 학습한 모델에 비해 3.2% 미만의 성능 저하만 보였지만, 프라이버시 공격에 대한 취약성은 최대 16% 감소하였다. 또한 개별 병원의 데이터만으로 학습한 모델보다 최대 70%, 기존 프라이버시 보호 협력 학습 프레임워크로 학습한 모델보다 최대 18.2% 우수한 성능을 보였다.
이를 통해 DeCaPH 프레임워크는 프라이버시를 보호하면서도 우수한 성능의 모델을 학습할 수 있음을 보여준다. 또한 개별 병원의 데이터만으로 학습한 모델보다 일반화 성능이 향상된다는 것을 확인하였다.
Stats
각 병원의 데이터셋 크기는 그림 2a와 같다.
각 병원의 "생존" 대 "사망" 사례 수는 그림 2b와 같다.