Keskeiset käsitteet
大型語言模型 (LLM) 即使透過參數化知識也難以確保生成文本的準確性,而檢索增強生成 (RAG) 雖可作為補充,但高度依賴檢索文件的相關性。本研究提出修正型檢索增強生成 (CRAG),透過評估檢索文件品質、觸發不同知識檢索動作(如網路搜尋)、精煉知識片段等方式,提升 RAG 的穩健性,並透過實驗證明 CRAG 能顯著提升 RAG 在短、長文本生成任務上的效能。
Tiivistelmä
論文資訊
標題: 修正型檢索增強生成
作者: Shi-Qi Yan, Jia-Chen Gu, Yun Zhu, Zhen-Hua Ling
發表於: arXiv preprint arXiv:2401.15884v3 (2024)
研究目標
本研究旨在解決檢索增強生成 (RAG) 方法在面對檢索錯誤時所面臨的挑戰,即不準確或誤導性的知識被提供給生成式大型語言模型 (LLM)。
方法
為了解決上述問題,本研究提出修正型檢索增強生成 (CRAG) 方法,其核心概念如下:
- 檢索評估器: 使用輕量級模型評估檢索文件與輸入查詢的相關性,並根據評估結果觸發不同的知識檢索動作。
- 知識檢索動作: 包含三種動作:
- 正確 (Correct): 當檢索結果包含相關文件時,對其進行知識精煉,提取關鍵知識片段。
- 錯誤 (Incorrect): 當檢索結果不包含任何相關文件時,透過網路搜尋獲取補充知識。
- 模糊 (Ambiguous): 當評估器無法確定檢索結果的正確性時,結合上述兩種動作的結果。
- 知識精煉: 將檢索到的相關文件分解成知識片段,過濾掉不相關的片段,並將剩餘片段重新組合成更精煉的知識。
- 網路搜尋: 利用網路搜尋引擎獲取補充知識,並透過知識精煉方法提取相關資訊。
主要發現
實驗結果顯示,CRAG 能夠顯著提升 RAG 在短文本問答 (PopQA)、長文本生成 (Biography)、是非題 (PubHealth) 和選擇題 (Arc-Challenge) 等多種生成任務上的效能。
結論
CRAG 方法透過修正檢索結果,有效提升了 RAG 的穩健性,使其在面對檢索錯誤時仍能保持良好的生成效能。
研究貢獻
- 首次針對 RAG 方法在檢索錯誤情況下提出修正策略,提升其穩健性。
- 提出 CRAG 方法,透過自動自我修正和有效利用檢索文件,提升生成效能。
- 透過實驗證明 CRAG 適用於各種基於 RAG 的方法,並在短、長文本生成任務上具有良好的泛化能力。
研究限制與未來方向
- CRAG 方法需要額外訓練一個外部檢索評估器,未來可探索如何將其整合至 LLM 中,使其具備更強的檢索評估能力。
- 目前 CRAG 方法主要針對英文文本進行評估,未來可進一步探討其在其他語言上的應用。
Tilastot
CRAG 在 PopQA 資料集上,準確率提升了 7.0%。
CRAG 在 Biography 資料集上,FactScore 提升了 14.9%。
CRAG 在 PubHealth 資料集上,準確率提升了 36.6%。
CRAG 在 Arc-Challenge 資料集上,準確率提升了 15.4%。
輕量級 T5 模型作為檢索評估器,在 PopQA 資料集上的準確率達 84.3%,顯著優於 ChatGPT 的 58.0%。
Lainaukset
"LLMs inevitably exhibit hallucinations since the accuracy of generated texts cannot be secured solely by the parametric knowledge they encapsulate."
"While RAG serves as a practicable complement to LLMs, its effectiveness is contingent upon the relevance and accuracy of the retrieved documents."
"This paper studies the scenarios where the retriever returns inaccurate results and, to the best of our knowledge, makes the first attempt to design corrective strategies for RAG to improve its robustness."