核心概念
本文介紹了一種名為 MMCS 的新型多模態醫學診斷系統,該系統結合了醫學圖像和影片分析以及基於知識庫的科室諮詢,以提供更準確和全面的醫學診斷。
摘要
本文介紹了一種名為 MMCS 的新型多模態醫學診斷系統,該系統結合了醫學圖像和影片分析以及基於知識庫的科室諮詢,以提供更準確和全面的醫學診斷。 MMCS 系統由兩個核心組件組成:醫學圖像和影片分析模組以及基於大型語言模型和醫學知識庫的專業醫學診斷生成模組。
醫學圖像和影片分析模組
多模態醫學模型的訓練數據
LLaVA-Med 項目中的 llava_med_instruct_60k 數據集,包含 60,000 個高質量的醫學圖像和文本對。
XrayGLM 項目中的 OpenI-zh 數據集,包含 6,423 個胸部醫學圖像及其對應的中英文診斷報告。
面部細節捕捉數據集,包含來自 CASIA-Face 數據集、CelebA-Dialog 數據集和面神經麻痺數據庫的 2,000 張面部圖像。
FER2013 數據集,包含 28,709 個數據樣本,用於訓練模型進行面部表情識別。
MMCS 醫學圖像分析
醫學圖像解析器的核心是醫學多模態大型模型,該模型在 InternLM-XComposer2-VL 模型上進行了微調,並使用 LoRA 訓練。
該模型能夠分析醫學圖像、分析用戶的面部表情,並通過患者的面部圖像識別是否存在面癱。
MMCS 醫學影片分析
醫學影片解析器由五個模組組成:多模態預處理、外部數據收集、二級幀影片描述生成、完整影片描述腳本生成和專業醫學報告生成。
影片解析器自動使用 ASR 工具將影片中的語音轉錄為文本,並從輸入影片中每秒提取 1 到 2 幀,然後由醫學多模態大型模型對其進行分析。
影片解析器收集用戶的歷史信息,包括以前的對話和症狀數據,以及一些關於影片的描述性信息,作為外部知識來源。
針對每個二級圖像,設計了特定的提示模板,並使用多個查詢來分析每個圖像的信息。
影片解析器使用醫學大型語言模型整合每個圖像的詳細分析、相應的時間信息和一些外部影片描述數據,以生成用戶影片的完整摘要。
影片解析器使用醫學大型語言模型,通過整合用戶的影片描述、用戶請求、歷史信息和特定的提示模板,生成詳細的醫學報告。
基於大型模型的多科室知識庫路由管理機制
使用大型語言模型根據醫學文本數據生成醫學問答數據集。
根據預先定義的醫學科室列表對數據集進行分類。
將分類後的數據存儲在以每個相應科室命名的知識庫中。
在分析醫學圖像和影片後,將分析結果發送到本地部署的大型語言模型。
模型首先確定當前數據是否足以做出決定,或者是否需要更詳細的信息。
一旦收集到必要的數據,模型就會自主地識別應該諮詢哪個科室的知識庫。
一旦確定了合適的科室,系統就會自動從相應的知識庫中檢索相關的醫療案例。
本地大型模型隨後充當該科室的醫生,通讀相關的醫療案例和用戶的詳細數據。
模型逐步生成一份全面的醫療報告。
結論
MMCS 系統在醫學診斷方面具有巨大潛力,它能夠提供準確的圖像分析和專業的診斷能力。 該系統整合多模態數據和生成專家級回應的能力可以幫助醫療保健專業人員做出明智的決策。 未來的研究方向將集中於擴展系統的功能以涵蓋更廣泛的醫療狀況,並進一步完善知識庫路由機制以提高診斷準確率。
統計資料
MMCS 在 FER2013 數據集上的準確率為 72.59%。
MMCS 在識別“快樂”情緒方面的準確率為 91.1%。
MMCS 在面癱識別方面的準確率為 92%,比 GPT-4o 高 30%。
在 30 個患者影片的測試中,MMCS 的分級準確率為 83.3%。
MMCS 中基於科室的知識庫路由管理機制使 MedQA 數據集上的各種大型語言模型的準確率平均提高了 4 個百分點。
在 MedQA 中文評估數據集上,採用 MMCS 的 7B 級模型的準確率最高,達到 84.41%。