本研究比較了監督式微調(SFT)和直接參數優化(DPO)兩種微調方法在五種常見的醫療自然語言處理任務中的表現:基於文本的分類、基於數值的分類、臨床推理、摘要和臨床分類。
結果發現,對於基於文本的分類任務,SFT單獨就足以達到很好的性能。而對於更複雜的臨床推理、摘要和分類任務,DPO能夠顯著提升性能。相比之下,兩種微調方法都無法顯著改善基於數值的分類任務。
研究團隊認為,這是因為SFT只能強化簡單的"詞-關聯"推理,而DPO則能夠幫助模型學習更深層次的理解。SFT只使用黃金標準答案進行訓練,模型只能學會識別關鍵詞或基本概念,而無法理解更複雜的模式。相比之下,DPO同時使用正確和錯誤的答案進行訓練,能夠幫助模型學習更抽象的規則。
因此,研究團隊得出結論,SFT足以應對基於明確標準的簡單任務,而DPO則更適合需要理解更高階模式的複雜任務。
在醫療領域,由於不同醫療機構有各自獨特的實踐和文檔風格,對語言模型的個性化需求很高。因此,SFT和DPO將在未來發揮重要作用,幫助模型學習特定醫療機構的專業知識和醫生偏好。
然而,在DPO能夠得到更廣泛應用之前,信息學界還需要解決一些軟件障礙。首先,大多數封閉源語言模型供應商似乎都不提供DPO微調功能,這阻礙了臨床應用中最先進模型的使用。其次,現有的開源DPO庫缺乏並行化能力,無法對超過100億參數的大型模型進行高精度微調。因此,生成式AI社區需要共同努力,消除這些障礙,促進DPO在醫療領域的廣泛應用。
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Thomas Savag... ב- arxiv.org 09-20-2024
https://arxiv.org/pdf/2409.12741.pdfשאלות מעמיקות