核心概念
本文提出了一個框架,透過監督式微調和基於人工智慧回饋的增強學習,利用少量資料來增強大型語言模型處理中醫任務的能力,並透過實驗證明了該框架在中醫診斷和處方任務上的有效性。
摘要
論文概述
本研究論文題為「透過人工智慧回饋增強學習來提升大型語言模型的中醫能力」,探討如何利用少量資料提升大型語言模型在中醫領域的應用。研究者們提出一個結合監督式微調和直接偏好優化的框架,並透過自動標註系統生成偏好數據,有效提升模型在中醫診斷和處方上的準確性。
研究方法
資料收集與處理
研究者收集真實醫案語料庫,包含初診和複診兩種情境,並進行資料清洗和標註。
監督式微調
利用收集到的醫案資料對大型語言模型進行監督式微調,使其初步具備處理中醫任務的能力。
人工智慧回饋增強學習
利用模型生成多個輸出結果,並透過自動標註系統進行評分和排序,生成偏好數據,再利用直接偏好優化演算法對模型進行進一步訓練。
實驗結果
實驗結果顯示,該框架相較於其他模型,包括廣泛使用的 GPT-3.5-turbo,在 ROUGE、BLEU 和 BERT-Score 等評估指標上均有更好的表現。
案例分析
研究者選取一個包含初診和複診的病患案例,展示模型如何根據病患症狀進行診斷和開立處方,並根據後續回診資訊調整治療方案,展現模型在真實醫療情境中的應用潛力。
結論與未來展望
該研究提出了一個可擴展且有效的解決方案,透過結合監督式微調、自動標註和直接偏好優化,提升大型語言模型在中醫領域的應用。未來研究方向包括擴展資料集規模、引入專家標註以及開發新的中醫任務。
統計資料
訓練資料包含 50 個初診案例和 131 個複診案例。
驗證資料包含 7 個初診案例和 19 個複診案例。
測試資料包含 14 個初診案例和 38 個複診案例。
模型訓練使用 1 個 NVIDIA Tesla A40(48GB) 顯示卡。
使用低秩適配 (LoRA) 參數高效微調方法進行訓練。
訓練精度為 bf16(Deepseek 為 fp32)。
學習率為 5e-5,批次大小為 2,梯度累積為 8,最大長度為 1024,dropout 為 0.1。
使用餘弦學習率排程器。
在模型生成多樣化輸出階段,樣本數量 k 設定為 3,溫度設定為 1.2。
引述
"由於中醫的特殊性,醫學領域微調的大型語言模型在全球範圍內發布的主要是針對西醫,並且大多以英文作為主要語言,例如 Google Med-PaLM 系列,這對中醫知識的發現和應用存在一定的局限性,難以滿足中醫的特殊需求。"
"中醫的許多理論和診斷治療方法缺乏統一的量化和客觀標準,無法輕易驗證。"
"中醫並非應用廣泛的學科,相關著作的資訊較少,高質量數據更難以獲取。"