核心概念
대규모 언어 모델과 앙상블 학습을 활용하여 의약품 및 관련 속성(용량, 투여 경로, 강도, 부작용 등)을 효과적으로 추출하고 표준 임상 지식베이스(SNOMED-CT, BNF 등)에 매핑하는 기술을 개발하였다.
摘要
이 연구는 의약품 추출 및 마이닝이 병원 환경에서의 실용적인 응용 분야인 표준 임상 지식베이스(SNOMED-CT, BNF 등)로의 매핑 등에 중요한 역할을 한다는 점에 주목하였다.
구체적으로 다음과 같은 내용을 다루었다:
- 대규모 언어 모델(BERT, RoBERTa, BioBERT, ClinicalBERT 등)을 활용하여 의약품 및 관련 속성(용량, 투여 경로, 강도, 부작용 등)을 추출하는 기술을 개발하였다.
- 앙상블 학습 기법(STACK-ENSEMBLE, VOTING-ENSEMBLE)을 활용하여 개별 언어 모델의 성능을 향상시켰다.
- 추출된 의료 용어를 SNOMED-CT 코드와 BNF 코드로 매핑하는 엔티티 링킹 기능을 구축하였다.
- 개발된 모델과 애플리케이션을 공개하여 사용자들이 편리하게 활용할 수 있도록 하였다.
이를 통해 사용자들은 어떤 모델을 선택해야 할지 고민할 필요 없이 앙상블 학습 프레임워크에 새로운 모델을 추가하여 성능을 테스트할 수 있게 되었다.
统计
의약품 추출 및 관련 속성 추출에 있어 앙상블 모델이 개별 모델보다 2.43% 더 높은 정확도와 1.35% 더 높은 F1 점수를 달성했다.
단어 단위 평가 시 앙상블 모델의 매크로 평균 정확도, 재현율, F1 점수는 각각 0.8261, 0.8259, 0.8232로 나타났다.
단어 단위 평가에서 B/I 레이블을 구분하지 않고 9개 레이블만 고려했을 때 매크로 평균 정확도, 재현율, F1 점수가 각각 0.8844, 0.8830, 0.8821로 향상되었다.
引用
"대규모 언어 모델과 앙상블 학습을 활용하여 의약품 및 관련 속성을 효과적으로 추출하고 표준 임상 지식베이스에 매핑할 수 있는 기술을 개발하였다."
"사용자들은 어떤 모델을 선택해야 할지 고민할 필요 없이 앙상블 학습 프레임워크에 새로운 모델을 추가하여 성능을 테스트할 수 있게 되었다."