Kernkonzepte
透過聯合優化包含決策、查詢重寫和答案生成模組的 SmartRAG 系統,可以比單獨優化模組的 RAG 系統獲得更好的效能。
論文資訊
Jingsheng Gao⋄§∗, Linxu Li§, Ke Ji‡§, Weiyuan Li§, Yixin Lian§, Yuzhuo Fu⋄†, Bin Dai§†
⋄上海交通大學
§小冰公司
‡ 香港中文大學
{gaojingsheng, yzfu}@sjtu.edu.cn
{lilinxu, liweiyuan, lianyixin, daibin}@xiaobing.ai
{keji}@link.cuhk.edu.cn
研究目標
本研究旨在解決傳統 RAG 系統中各模組獨立優化導致效能欠佳的問題,提出一個名為 SmartRAG 的新型 RAG 框架,透過強化學習聯合優化決策、查詢重寫和答案生成模組,以提升整體效能。
方法
SmartRAG 包含一個策略網路和一個檢索器。策略網路扮演三個角色:決策者(決定何時檢索)、查詢重寫器(生成適合檢索器的查詢)和答案生成器(根據觀察結果生成最終答案)。研究人員使用強化學習演算法 PPO 聯合優化整個系統,並設計獎勵函數鼓勵系統以最少的檢索次數產生正確答案。
主要發現
實驗結果顯示,SmartRAG 在 PopQA、AmbigNQ 和 HotpotQA 等公開問答數據集上均優於單獨優化模組的 RAG 系統,證明了聯合優化的有效性。
SmartRAG 能夠學習何時需要檢索、如何生成有效的查詢以及如何利用檢索到的資訊生成準確答案,展現出各模組間的高度協作性。
在 OpenBookQA、MedQA-cn 和 ARC-c 等數據集上,SmartRAG 學習到在數據庫缺乏有用資訊的情況下不進行檢索,避免浪費資源。
主要結論
聯合優化對於提升 RAG 系統效能至關重要,SmartRAG 透過聯合學習各模組,使其能夠協同工作,從而獲得更佳的效能表現。
研究意義
本研究提出了一種全新的 RAG 框架,透過聯合優化解決了傳統方法的缺陷,為構建更強大、更高效的問答系統提供了新的思路。
局限與未來研究方向
本研究主要關注單一 LLM 的聯合優化,未來可以探索多個 LLM 協同工作的可能性。
目前的獎勵函數設計相對簡單,未來可以考慮更複雜、更貼近真實應用場景的獎勵機制。
Statistiken
Flan-T5 large 在 PopQA 數據集上的 EM 分數為 12.76%,F1 分數為 17.70%。
Flan-T5 large 在 AmbigNQ 數據集上的 EM 分數為 4.56%,F1 分數為 10.92%。
Flan-T5 large 在 HotpotQA 數據集上的 EM 分數為 12.72%,F1 分數為 19.72%。
LlaMa-2 7B 在 PopQA 數據集上的 EM 分數為 27.91%,F1 分數為 31.54%。
LlaMa-2 7B 在 AmbigNQ 數據集上的 EM 分數為 22.47%,F1 分數為 31.28%。
LlaMa-2 7B 在 HotpotQA 數據集上的 EM 分數為 20.74%,F1 分數為 29.52%。