Core Concepts
본 연구는 시간 순서에 따른 환자 타임라인을 보존하는 새로운 환자 표현 방식을 제안하고, 이를 활용하여 Generative Pre-trained Transformer (GPT) 모델을 통해 현실적인 합성 전자 건강 기록 데이터를 생성하는 방법을 소개한다.
Abstract
본 연구는 전자 건강 기록(EHR) 데이터의 합성 생성을 위한 새로운 접근법을 제안한다. 기존의 방법들은 시간 의존성을 충분히 고려하지 않아 실제 환자 데이터와 유사하지 않은 합성 데이터를 생성하는 한계가 있었다.
이를 해결하기 위해 본 연구에서는 다음과 같은 핵심 내용을 다루고 있다:
환자의 인구통계학적 정보, 방문 유형, 방문 간 시간 간격 등 시간 순서에 따른 정보를 모두 포함하는 새로운 환자 표현 방식을 제안하였다. 이를 통해 환자 타임라인을 정확하게 보존할 수 있다.
제안한 환자 표현을 활용하여 Generative Pre-trained Transformer (GPT) 모델을 학습시켜 새로운 합성 환자 시퀀스를 생성하였다.
생성된 합성 환자 시퀀스를 관찰 의료 성과 파트너십(OMOP) 데이터 형식으로 변환하여 실제 데이터와 유사한 합성 EHR 데이터를 생성하였다.
생성된 합성 데이터에 대해 다양한 평가 지표를 통해 실제 데이터와의 유사성을 검증하였다. 특히 시간 의존성이 중요한 예측 과제에서도 우수한 성능을 보였다.
이를 통해 본 연구는 시간 순서에 따른 환자 타임라인을 정확하게 보존하면서도 현실적인 합성 EHR 데이터를 생성할 수 있는 새로운 방법론을 제시하였다.
Stats
환자 당 평균 방문 횟수는 16회, 평균 시퀀스 길이는 148개이다.
환자 당 최소 방문 횟수는 2회, 최대 방문 횟수는 102회이다.
환자 당 25% 백분위수 방문 횟수는 4회, 50% 백분위수는 8회, 75% 백분위수는 21회이다.
Quotes
"시간 순서에 따른 EHR 데이터는 의료 연구, 약물 감시, 임상 기계 학습, 시스템 개발에 필수적이지만, 실제 데이터 사용에는 개인 정보 보호, 기관 동의, 데이터 공유 제한 등의 어려움이 있다."
"합성 데이터는 실제 데이터와 통계적 특성과 환자 여정을 모방하지만, 특정 개인과 관련되지 않는다. 합성 데이터를 통해 연구자들은 개인 정보 보호 문제 없이 관심 있는 질문에 답할 수 있다."