이 연구는 의료 문서의 가독성 측정을 위한 체계적인 연구를 수행했다. 주요 내용은 다음과 같다:
의료 분야 문장의 가독성을 평가하기 위해 4,520개의 문장을 수집하고 전문가가 직접 문장 난이도를 평가한 MEDREADME 데이터셋을 구축했다. 이 데이터셋에는 문장 수준의 가독성 평가와 함께 세부적인 복잡 단어 및 전문 용어 주석이 포함되어 있다.
650개의 언어학적 특징과 의료 전문 용어 관련 특징을 분석한 결과, 문장 길이나 문법적 복잡성보다는 의료 전문 용어의 사용이 문장 난이도에 더 큰 영향을 미치는 것으로 나타났다.
기존의 문장 가독성 측정 지표들을 의료 분야에 적용하고 평가한 결과, 언어 모델 기반의 RSRS 지표가 가장 좋은 성능을 보였다. 또한 전문 용어 정보를 추가로 활용하면 기존 지표의 성능을 크게 향상시킬 수 있음을 확인했다.
문장 내 복잡 단어와 전문 용어를 자동으로 식별하는 모델을 개발했으며, 이를 통해 문장 가독성 측정 지표의 성능을 더욱 개선할 수 있었다.
이 연구는 의료 분야 문서의 가독성 향상을 위한 기반을 마련했다는 점에서 의의가 크다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы