本研究探討了在醫療文本挖掘任務中使用最新的大型語言模型和集成學習方法的效果。具體包括:
使用BERT、RoBERTa、BioBERT等8個預訓練模型對n2c2-2018藥物提取數據集進行fine-tuning,並比較其在子詞級和詞級的性能。結果顯示,fine-tuned的BioMedRoBERTa和RoBERTa-Large模型在子詞級別取得了最佳的宏平均F1分數。
探索了兩種集成學習方法(投票集成和堆疊集成)來提高個別模型的性能。投票集成方法在詞級別取得了最佳的宏平均F1分數0.8232,優於個別模型。而堆疊集成的效果則不如投票集成。
在提取的醫療實體上,添加了將其映射到SNOMED-CT和BNF標準臨床知識庫的功能。
開發了桌面應用程序和Web界面,為用戶提供便捷的藥物提取和實體連結服務。
總的來說,本研究展示了大型語言模型和集成學習在醫療NLP任務中的潛力,為自動化臨床編碼和知識提取提供了有效的解決方案。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Pablo Romero... alle arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19467.pdfDomande più approfondite