Core Concepts
의료 전문용어를 일반인이 이해할 수 있는 용어로 자동 변환하여 환자 교육을 개선하는 것이 이 연구의 핵심 목표이다.
Abstract
이 연구는 환자 중심 의료 서비스의 일환으로 전자 의무 기록(EHR)에 포함된 의료 전문용어를 일반인이 이해할 수 있는 용어로 자동 변환하는 방법을 제안한다.
먼저 연구진은 50,000개 이상의 의료 용어와 이에 대한 일반인 친화적 정의로 구성된 README 데이터셋을 구축했다. 이 데이터셋은 의료 전문가가 수작업으로 주석을 달아 만든 것이다.
이어서 연구진은 데이터 중심 인간-AI 협업 파이프라인인 EAE(Examiner-Augmenter-Examiner)를 개발했다. EAE는 데이터 필터링, 증강, 선택 단계를 거쳐 고품질의 데이터셋을 생성한다.
이렇게 구축된 고품질 데이터셋을 활용해 연구진은 Retrieval-Augmented Generation 방법을 적용한 모델을 개발했다. 이 모델은 의료 용어에 대한 일반 정의를 활용해 일반인 친화적 정의를 생성한다.
실험 결과, 연구진이 개발한 모델은 오픈소스 소형 언어 모델로도 ChatGPT와 같은 대형 언어 모델의 성능을 능가할 수 있음을 보여주었다. 이는 고품질 데이터와 적절한 모델 설계를 통해 환자 교육을 위한 NLP 기술을 발전시킬 수 있음을 시사한다.
Stats
전자 의무 기록(EHR)에는 의료 전문가들이 사용하는 전문용어가 많이 포함되어 있어 일반 환자들의 이해도가 낮다.
기존 자원(UMLS, MedlinePlus, Wikipedia 등)의 의료 용어 설명은 평균 대학 수준 이상의 난이도를 가지고 있어 일반 환자들이 이해하기 어렵다.
연구진은 50,000개 이상의 의료 용어와 일반인 친화적 정의로 구성된 README 데이터셋을 구축했다.
Quotes
"의료 전문용어를 일반인이 이해할 수 있는 용어로 자동 변환하여 환자 교육을 개선하는 것이 이 연구의 핵심 목표이다."
"연구진이 개발한 모델은 오픈소스 소형 언어 모델로도 ChatGPT와 같은 대형 언어 모델의 성능을 능가할 수 있음을 보여주었다."