核心概念
LEAF 透過結合事實查核和檢索增強生成,以及透過自我訓練從事實查核中學習,提高了大型語言模型在醫學問答等知識密集型領域的準確性和可靠性。
摘要
LEAF:透過事實查核增強學習和評估以提高大型語言模型的事實準確性
這篇研究論文介紹了 LEAF,這是一種新穎的方法,旨在透過事實查核增強學習和評估,從而提高大型語言模型 (LLM) 的事實可靠性,特別關注於醫學問答 (QA)。
LEAF 的雙重策略
LEAF 採用雙重策略來提高 LLM(例如 Llama 3 70B Instruct 和 Llama 3 8B Instruct)回應的事實準確性:
- 事實查核後進行檢索增強生成 (Fact-Check-Then-RAG):透過整合事實查核結果來指導檢索過程,從而改進檢索增強生成 (RAG),而無需更新模型參數。
- 透過自我訓練從事實查核中學習 (Learning from Fact-Checks via Self-Training):涉及對事實查核後的回應進行監督式微調 (SFT),或應用簡單偏好優化 (SimPO) 並將事實查核作為排名機制,這兩種方法都透過監督來更新 LLM 參數。
LEAF 機制如何運作
LEAF 機制 I:事實查核後進行檢索增強生成
此機制將事實查核階段與檢索增強生成 (RAG) 無縫整合。它利用在事實查核過程中檢索到的文件來增強回應的生成。其主要思想是利用從事實查核階段檢索到的知識,特別是針對未通過事實查核測試的個別事實。當檢索到的知識來源不支持某項事實時,此策略會將相關文件包含在 RAG 提示中,以幫助 LLM 改進其推理或答案,從而有可能提高效能。
LEAF 機制 II:透過自我訓練從事實查核中學習
此方法包括兩個主要部分:對事實正確的回應進行監督式微調,以及使用簡單偏好優化進行優化。
- 對事實正確的回應進行監督式微調:這部分涉及使用已通過事實查核測試的回應對模型進行微調,確保模型在經過驗證的準確資訊上進行訓練,從而提高其整體效能。
- 使用 SimPO 進行優化:自我訓練方法的第二部分利用簡單偏好優化 (SimPO) 根據事實準確性對回應進行排名和優化。SimPO 將獎勵公式與生成指標直接對齊,無需參考模型。
實驗結果
實驗結果顯示,LEAF 不僅可以有效地檢測不準確的回應,還可以顯著提高模型的準確性。這些發現表明,整合事實查核後的回應(無論是透過 RAG 增強還是自我訓練)都可以提高 LLM 輸出的可靠性和事實正確性,為資訊準確性至關重要的應用程式提供了一種有前景的解決方案。
統計資料
在所有五個醫學資料集上,使用 LEAF 事實查核系統過濾回應後,與原始模型準確性和基準 Factcheck-GPT 相比,準確性顯著提高。
與原始模型效能相比,FC-RAG 方法在所有資料集上的準確性都有提高:USMLE 提高 4.99%,MMLU-Medical 提高 1.66%,PubMedQA 提高 13.0%,BioASQ 提高 7.28%,MedMCQA 提高 1.56%。
與原始模型效能相比,使用 LEAF 進行 SFT 的方法顯示出顯著的改進:USMLE 提高 4.71%,MMLU-Medical 提高 4.87%,PubMedQA 提高 6.60%,BioASQ 提高 4.53%,MedMCQA 提高 2.97%。
與使用 ArmoRM 排名的回應相比,對 LEAF 排名的回應進行 SimPO 優化會產生更好的效能。具體來說,使用 LEAF 的 SimPO 方法顯示出顯著的改進:與原始模型效能相比,USMLE 提高 4.08%,MMLU-Medical 提高 2.67%,PubMedQA 提高 6.80%,BioASQ 提高 7.45%,MedMCQA 提高 2.89%。