핵심 개념
대규모 언어 모델(LLM)을 사용하여 관찰되지 않은 교란 요인(예: 흡연 상태)을 예측하고 측정 오류를 보정함으로써 관찰된 데이터에서 편향되지 않은 인과 효과를 추정할 수 있다.
초록
대규모 언어 모델을 활용한 비관찰 교란 요인 제어 및 인과 효과 추정: MIMIC 데이터 기반 연구
본 연구 논문에서는 대규모 언어 모델(LLM)을 사용하여 관찰된 환자 데이터에서 흡연 상태를 분류하고, 이를 통해 비관찰 교란 요인을 제어하여 경흉부 심장초음파(TTE)가 패혈증 환자의 28일 사망률에 미치는 인과 효과를 추정하는 방법론을 제시한다.
본 연구는 MIMIC 데이터 세트에서 TTE가 패혈증 환자의 사망률에 미치는 인과 효과를 추정함에 있어, 기존 연구에서 간과되었던 흡연 상태를 비관찰 교란 요인으로 고려하여 보다 정확한 인과 효과를 추정하는 것을 목적으로 한다.
흡연 상태 분류:
Alsentzer et al. (2019)가 공개한 ClinicalBERT LLM 아키텍처를 기반으로, Uzuner et al. (2008)의 n2c2 흡연 데이터 세트를 사용하여 환자의 흡연 상태(과거 흡연자, 현재 흡연자, 비흡연자, 알 수 없음)를 예측하는 LSTM 모델을 학습한다.
학습된 모델을 사용하여 MIMIC 데이터 세트의 환자들의 흡연 상태를 예측한다.
행렬 조정:
n2c2 데이터 세트에서 계산된 모델의 오류율 행렬 p(U*|U)를 사용하여 측정 오류를 보정한다.
흡연 상태 예측값(U*)과 관찰된 변수(X, Y, C)를 사용하여 p(Y|X, U*, C), p(U*|X, C), p(X|C) 모델을 적합한다.
적합된 모델과 오류율을 사용하여 인과 효과를 추정한다.
MC-SIMEX:
측정 오류 처리를 위해 널리 사용되는 MC-SIMEX 방법을 사용하여 인과 효과를 추정하고, 제안된 행렬 조정 방법과 비교한다.