Core Concepts
의료 문서의 가독성을 향상시키기 위해서는 정확한 문장 난이도 측정이 필수적이다. 본 연구는 의료 분야의 문장 난이도를 체계적으로 분석하고 측정하는 새로운 데이터셋과 방법론을 제안한다.
Abstract
이 연구는 의료 문서의 가독성 측정을 위한 체계적인 연구를 수행했다. 주요 내용은 다음과 같다:
의료 분야 문장의 가독성을 평가하기 위해 4,520개의 문장을 수집하고 전문가가 직접 문장 난이도를 평가한 MEDREADME 데이터셋을 구축했다. 이 데이터셋에는 문장 수준의 가독성 평가와 함께 세부적인 복잡 단어 및 전문 용어 주석이 포함되어 있다.
650개의 언어학적 특징과 의료 전문 용어 관련 특징을 분석한 결과, 문장 길이나 문법적 복잡성보다는 의료 전문 용어의 사용이 문장 난이도에 더 큰 영향을 미치는 것으로 나타났다.
기존의 문장 가독성 측정 지표들을 의료 분야에 적용하고 평가한 결과, 언어 모델 기반의 RSRS 지표가 가장 좋은 성능을 보였다. 또한 전문 용어 정보를 추가로 활용하면 기존 지표의 성능을 크게 향상시킬 수 있음을 확인했다.
문장 내 복잡 단어와 전문 용어를 자동으로 식별하는 모델을 개발했으며, 이를 통해 문장 가독성 측정 지표의 성능을 더욱 개선할 수 있었다.
이 연구는 의료 분야 문서의 가독성 향상을 위한 기반을 마련했다는 점에서 의의가 크다.
Stats
의료 전문 용어가 포함된 문장은 일반 문장에 비해 평균 2배 이상 길다.
문장 내 의료 전문 용어의 개수가 1개 증가할 때마다 문장 가독성 점수가 0.656만큼 감소한다.
의료 전문 용어 중 "Google-Hard" 유형은 "Google-Easy" 유형에 비해 설명이 부족한 경우가 많다(10.3% vs 45.6%).
Quotes
"의료 문서를 이해할 수 없다면 개선할 수 없다."
"의료 전문 용어는 전문가 간 의사소통에 유용하지만, 일반인에게는 이해하기 어려운 장벽이 된다."