核心概念
ALIGN 是一種新型組合式大型語言模型系統,專為自動化零樣本醫學編碼而設計,在 ATC 和 MedDRA 編碼方面表現出優於現有基於大型語言模型方法的性能,並通過不確定性量化實現人類參與循環,從而提高準確性和可靠性。
研究背景
歷史臨床試驗數據的再利用對於醫學研究和藥物開發具有巨大的潛力,可以減少樣本量、增強統計能力並揭示隱藏在單個數據集中的更廣泛的醫學見解。然而,互操作性挑戰,特別是缺少醫學代碼,阻礙了跨研究的有效數據整合。雖然大型語言模型 (LLM) 為無需標記數據的自動化編碼提供了一種有前景的解決方案,但目前的方法在複雜的編碼任務中面臨著挑戰。
ALIGN 系統架構
ALIGN 是一種組合式 LLM 醫學編碼系統(即複合人工智能系統),它利用 LLM 的推理能力,同時結合了明確的驗證。ALIGN 使用多步驟流程,其中 LLM 提出代碼、考慮備選方案、根據外部接地信息驗證選擇並產生不確定性估計以實現人工監督 - 這是 LLM 輸出用於臨床環境時的一個重要考慮因素。
ALIGN 的三個階段
多樣化候選代碼生成: ALIGN 採用三種互補的方法來生成多樣化的候選代碼:密集檢索、BM25 檢索和 LLM 推理。
LLM 自我評估: 為了確保代碼有效性並減少虛假候選代碼,ALIGN 實現了一種利用外部基礎的自評估機制。
置信度評分和不確定性估計: 為了提供可靠的不確定性估計並實現人工延遲,ALIGN 實現了一種用於置信度評分和不確定性估計的兩階段方法。
結果
ALIGN 和 RAG 在將藥物名稱協調到解剖學治療化學 (ATC) 和將病史術語協調到醫學詞典監管活動 (MedDRA) 代碼方面均顯著優於香草 LLM。
ALIGN 在 ATC 編碼方面表現出優於檢索排名方法的性能,特別是在 ATC 層次的較低級別(第 3 級和第 4 級)。
ALIGN 在常見藥物上的表現尤其出色,與總體結果相比,ATC 4 級的性能提高了 ±10%。
基於不確定性的延遲優於隨機延遲,表明 ALIGN 能夠識別它可能錯誤分類的情況——有效地“知道它不知道什麼”。
結論
ALIGN 的組合式 LLM 系統代表了臨床試驗數據零樣本自動化醫學編碼的進步,有助於增強數據互操作性和可重用性。這一進步在改善臨床分析、加速藥物開發、降低成本以及最終改善患者療效方面具有巨大潛力。隨著試驗數據量的增長,像 ALIGN 這樣的系統將成為釋放歷史數據的全部潛力並加速醫學創新的關鍵。
統計資料
ALIGN 在常見藥物上的表現尤其出色,與總體結果相比,ATC 4 級的性能提高了 ±10%。
通過大約 30% 的延遲,觀察到準確率提高到接近 90%,這意味著罕見藥物的增加超過 15%。