의료 기록 질의 응답 시스템의 신뢰성을 평가하기 위해서는 답변할 수 없는 질문을 포함하는 것이 중요하다. 그러나 EHRSQL 데이터셋에서 이러한 답변할 수 없는 질문에 편향성이 존재하여, 단순한 N-gram 필터링만으로도 이를 구분할 수 있다. 이는 질의 응답 시스템 평가의 신뢰성을 저해한다. 이를 해결하기 위해 검증 데이터와 테스트 데이터의 분할을 조정하여 편향성을 완화하는 방법을 제안한다.
도메인 적응 언어 모델 시스템(RadLing-System)이 범용 언어 모델 시스템(GPT-4-System)보다 방사선과 보고서에서 관련 특징을 추출하고 공통 데이터 요소(CDE)로 표준화하는 데 더 우수한 성능을 보였다.
대규모 언어 모델을 활용하여 임상 기록에서 11가지 물질 사용 장애 진단의 심각도 정보를 효과적으로 추출할 수 있다.
본 연구는 뇌졸중 환자의 임상 기록에서 물리 재활 운동 정보를 추출하고 분류하기 위한 다양한 자연어 처리 알고리즘을 개발하고 평가하였다.