核心概念
本文提出了一種基於動態實體替換和遮罩策略 RoBERTa-BiLSTM-CRF 模型的肝癌知識圖譜構建方法,旨在從中文電子病歷和線上醫學資源中提取實體、建立關係,並構建一個全面的肝癌知識圖譜,以輔助醫生進行診斷和治療。
摘要
論文概述
本研究論文旨在構建一個針對肝癌的知識圖譜,以解決醫生在診斷和治療肝癌過程中面臨的挑戰。研究團隊利用中文電子病歷 (EMR)、專業醫學網站 www.XYWY.com 以及臨床醫學詞彙規範 (CCMT) 等結構化數據,開發了一套系統性的知識圖譜構建流程。
研究方法
- 概念層設計: 根據 www.XYWY.com 和臨床醫生的經驗知識,將概念層劃分為八個類別:病人、檢查、症狀、疾病、病情、手術、治療和身體。
- 數據預處理: 將 EMR 轉換為可讀寫的文本格式,並進行句子重組和字數限制。
- 實體識別: 採用基於深度學習的 DERM-RoBERTa-BiLSTM-CRF 模型,從 EMR 中提取實體,例如疾病、症狀、病人狀況、治療方案、檢查信息和手術記錄。
- 知識融合: 利用 TF-IDF 方法進行實體對齊,將 EMR 中的實體與 www.XYWY.com 知識庫中的實體進行匹配和融合,以解決實體記錄不一致的問題。
- 知識圖譜構建: 使用 Neo4j 圖數據庫構建肝癌知識圖譜,並通過 Cypher 語言進行語義查詢和數據分析。
研究結果
本研究成功構建了一個包含 12 種類型實體、共計 46,365 個實體和 296,655 個三元組的肝癌知識圖譜。實驗結果表明,DERM-RoBERTa-BiLSTM-CRF 模型在實體識別方面表現出色,F1 值達到 94.65%,相較於基準模型提升了 4.3%。
研究意義
本研究構建的肝癌知識圖譜可以應用於多個方面,例如:
- 篩選肝癌患者的基本疾病: 通過知識圖譜中的三元組關係,可以快速查詢與患者疾病相關的潛在併發症,幫助醫生制定更有效的治療方案。
- 輔助診斷和治療: 醫生可以利用知識圖譜查詢特定疾病的症狀、治療方法、預後等信息,為臨床決策提供參考。
- 支持醫學研究: 研究人員可以利用知識圖譜進行數據挖掘和分析,探索疾病發病機制、治療方案優化等方面的研究。
研究局限與展望
本研究仍存在一些局限性,例如:
- 數據來源單一,主要來自單一醫院的 EMR 和單一醫學網站,未來可以考慮整合更多數據源,提高知識圖譜的覆蓋度和準確性。
- 實體關係的挖掘仍不夠深入,未來可以探索更複雜的關係抽取方法,構建更豐富的知識圖譜。
總之,本研究為肝癌知識圖譜的構建提供了一種有效的方法,並展示了其在輔助診斷、治療和醫學研究方面的潛力。未來,隨著數據量的增加和技術的進步,肝癌知識圖譜將在臨床實踐中發揮更大的作用。
統計資料
肝癌知識圖譜包含 12 種類型的實體,共計 46,365 個實體和 296,655 個三元組。
DERM-RoBERTa-BiLSTM-CRF 模型的 F1 值達到 94.65%,相較於基準模型提升了 4.3%。
研究團隊使用了 310 份來自南方醫科大學珠江醫院的肝癌患者非結構化電子病歷。
引述
"The Knowledge Graph (KG) was first proposed by Google [2] in 2012 as a structured knowledge representation of real-world entities and the relationships between them as graphical structures."
"Our work on constructing liver cancer KG from CEMRs distinguishes itself from previous efforts in several key aspects: 1) It introduces the first knowledge graph specifically tailored for liver cancer, diverging from the general medical knowledge graphs typically seen in prior research; 2) involving normalizing and interconnecting entities like diseases, treatments, and surgeries in CEMRs with online medical knowledge bases; and 3) adding the downstream applications of the knowledge graph, rather than focusing only on the specific steps of construction KG as in previous work."